├── LICENSE
├── README.md
├── ch02
├── README.md
├── real-data.ipynb
└── synthetic-data.ipynb
├── ch03
├── README.md
├── mf.py
└── naive-vs-ips.ipynb
├── ch04
├── README.md
├── evaluate.py
├── loss.py
├── model.py
├── naive-vs-ips.ipynb
├── position-bias-effects.ipynb
├── theta-misspecification.ipynb
├── train.py
└── utils.py
├── ch05
├── README.md
├── evaluate.py
├── loss.py
├── model.py
├── naive-vs-ips.ipynb
├── objective-misspecification.ipynb
├── train.py
└── utils.py
├── poetry.lock
└── pyproject.toml
/LICENSE:
--------------------------------------------------------------------------------
1 | BSD 3-Clause License
2 |
3 | Copyright (c) 2021, ghmagazine
4 | All rights reserved.
5 |
6 | Redistribution and use in source and binary forms, with or without
7 | modification, are permitted provided that the following conditions are met:
8 |
9 | 1. Redistributions of source code must retain the above copyright notice, this
10 | list of conditions and the following disclaimer.
11 |
12 | 2. Redistributions in binary form must reproduce the above copyright notice,
13 | this list of conditions and the following disclaimer in the documentation
14 | and/or other materials provided with the distribution.
15 |
16 | 3. Neither the name of the copyright holder nor the names of its
17 | contributors may be used to endorse or promote products derived from
18 | this software without specific prior written permission.
19 |
20 | THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"
21 | AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
22 | IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE ARE
23 | DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT HOLDER OR CONTRIBUTORS BE LIABLE
24 | FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
25 | DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR
26 | SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
27 | CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
28 | OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
29 | OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
30 |
--------------------------------------------------------------------------------
/README.md:
--------------------------------------------------------------------------------
1 | ## 施策デザインのための機械学習入門
2 |
3 | 技術評論社発行の書籍『施策デザインのための機械学習入門』([Amazon](https://www.amazon.co.jp/dp/4297122243/))のサンプルコードです。
4 |
5 |
6 |
7 | ## 書籍情報
8 |
9 | - 紙版発売: 2021年8月4日 / 電子版発売: 2021年7月30日
10 | - 齋藤優太,安井翔太 著,株式会社ホクソエム 監修
11 | - A5判/336ページ
12 | - 定価3,278円(本体2,980円+税10%)
13 | - ISBN 978-4-297-12224-9
14 | - 出版社サポートサイト: https://gihyo.jp/book/2021/978-4-297-12224-9
15 |
16 | ## ディレクトリ構成
17 |
18 | |ディレクトリ| 内容 |
19 | |:----|:-------|
20 | | [ch02](ch02/) |「2.3節 Open Bandit Pipelineを用いた実装」で用いた実装 |
21 | | [ch03](ch03/) |「3.5節 Pythonによる実装とYahoo! R3データを用いた性能検証」で用いた実装 |
22 | | [ch04](ch04/) |「4.3節 PyTorchを用いた実装と簡易実験」で用いた実装 |
23 | | [ch05](ch05/) |「5.4節 PyTorchを用いた実装と簡易実験」で用いた実装 |
24 |
25 |
26 | ## 動作環境
27 | 本書で用いたPython環境は[poetry](https://python-poetry.org/docs/)を用いて構築しています。リポジトリを`git clone`し、フォルダ直下で`poetry install`を実行すると、本書と同じ環境を構築できます。
28 |
29 | ```bash
30 | # リポジトリをclone
31 | git clone https://github.com/ghmagazine/ml_design_book.git
32 | cd ml_design_book
33 |
34 | # poetryで環境構築
35 | poetry install
36 |
37 | # jupyter labを立ち上げ
38 | poetry run jupyter lab
39 | ```
40 |
41 | Pythonおよび利用パッケージのバージョンは以下の通りです。
42 |
43 | ```
44 | [tool.poetry.dependencies]
45 | python = "^3.9"
46 | torch = "^1.9.0"
47 | scikit-learn = "^0.24.2"
48 | numpy = "^1.20.3"
49 | matplotlib = "^3.4.2"
50 | seaborn = "^0.11.1"
51 | tqdm = "^4.61.1"
52 | pytorchltr = "^0.2.1"
53 | pandas = "^1.2.4"
54 | obp = "^0.4.1"
55 | jupyterlab = "^3.0.16"
56 | ```
57 |
58 | これらのパッケージのバージョンが異なると、使用方法や挙動が本書執筆時点と異なる場合があるので、注意してください。
59 |
--------------------------------------------------------------------------------
/ch02/README.md:
--------------------------------------------------------------------------------
1 | ## 第2章
2 |
3 | ### データセット
4 |
5 | 実データを用いた簡易実験を行うには、Open Bandit Datasetを[https://research.zozo.com/data.html](https://research.zozo.com/data.html)から取得し、ディレクトリを以下の通りに配置します。
6 |
7 | ```
8 | ch2/
9 | ├──open_bandit_dataset/
10 | ```
11 | なお本書でも補足した通りオリジナルのデータセットは11GBあるため、最初はお試しのスモールサイズデータを使ってみると良いかもしれません。お試しのデータセットの使い方も本書にて補足しています。
12 | ### Open Bandit Pipelineを用いた実装
13 |
14 | - [`synthetic-data.ipynb`](./synthetic-data.ipynb): 人工データを用いて意思決定モデルの学習とその性能評価を行う流れを実装.
15 | - [`real-data.ipynb`](./real-data.ipynb): 実データ(Open Bandit Dataset)を用いて意思決定モデルの学習とその性能評価を行う流れを実装.
16 |
--------------------------------------------------------------------------------
/ch02/real-data.ipynb:
--------------------------------------------------------------------------------
1 | {
2 | "cells": [
3 | {
4 | "cell_type": "markdown",
5 | "metadata": {},
6 | "source": [
7 | "## 2章 Open Bandit Datasetを用いた意思決定モデルの学習/評価の実装\n",
8 | "\n",
9 | "この実装例は主に次の3つのステップで構成される。\n",
10 | "\n",
11 | "1. データの前処理: Open Bandit DatasetのうちBernoulliTSモデルで収集されたデータを読み込んで前処理を施す。\n",
12 | "2. 意思決定モデルの学習: トレーニングデータを用いてIPWLearnerに基づいた意思決定モデルを学習し、バリデーションデータに対して行動を選択する。\n",
13 | "3. 意思決定モデルの性能評価: 学習された意思決定モデルの性能をバリデーションデータを用いて評価する。\n",
14 | "\n",
15 | "このような分析手順を経ることにより「**ZOZOTOWNのファッションアイテム推薦枠において、データ収集時に使われていたBernoulliTSモデルをこれからも使い続けるべきなのか、はたまたOPLで新たに学習したIPWLearnerに基づく意思決定モデルへの切り替えを検討すべきなのか**」という問いに答えることを目指す。"
16 | ]
17 | },
18 | {
19 | "cell_type": "code",
20 | "execution_count": 1,
21 | "metadata": {},
22 | "outputs": [],
23 | "source": [
24 | "# 必要なパッケージをインポート\n",
25 | "from pathlib import Path\n",
26 | "\n",
27 | "from sklearn.ensemble import RandomForestClassifier\n",
28 | "from sklearn.linear_model import LogisticRegression\n",
29 | "\n",
30 | "import obp\n",
31 | "from obp.dataset import OpenBanditDataset\n",
32 | "from obp.policy import IPWLearner\n",
33 | "from obp.ope import (\n",
34 | " OffPolicyEvaluation, \n",
35 | " RegressionModel,\n",
36 | " InverseProbabilityWeighting as IPS,\n",
37 | " DoublyRobust as DR\n",
38 | ")"
39 | ]
40 | },
41 | {
42 | "cell_type": "code",
43 | "execution_count": null,
44 | "metadata": {},
45 | "outputs": [],
46 | "source": []
47 | },
48 | {
49 | "cell_type": "markdown",
50 | "metadata": {},
51 | "source": [
52 | "## (1) Data Loading and Preprocessing\n",
53 | "\n",
54 | "[Open Bandit Dataset(約11GB)](https://research.zozo.com/data.html)をダウンロードし、\"./open_bandit_dataset\"におく。"
55 | ]
56 | },
57 | {
58 | "cell_type": "code",
59 | "execution_count": 2,
60 | "metadata": {},
61 | "outputs": [
62 | {
63 | "output_type": "stream",
64 | "name": "stderr",
65 | "text": [
66 | "/Users/usaito/.pyenv/versions/3.8.2/lib/python3.8/site-packages/numpy/lib/arraysetops.py:583: FutureWarning: elementwise comparison failed; returning scalar instead, but in the future will perform elementwise comparison\n mask |= (ar1 == a)\n"
67 | ]
68 | },
69 | {
70 | "output_type": "execute_result",
71 | "data": {
72 | "text/plain": [
73 | "dict_keys(['n_rounds', 'n_actions', 'action', 'position', 'reward', 'pscore', 'context', 'action_context'])"
74 | ]
75 | },
76 | "metadata": {},
77 | "execution_count": 2
78 | }
79 | ],
80 | "source": [
81 | "# ZOZOTOWNのトップページ推薦枠でBernoulli Thompson Sampling (bts)が収集したデータをダウンロードする\n",
82 | "# `data_path=None`とすると、スモールサイズのお試しデータセットを用いることができる\n",
83 | "dataset = OpenBanditDataset(\n",
84 | " behavior_policy=\"bts\", # データ収集に用いられた意思決定モデル\n",
85 | " campaign=\"men\", # キャンペーン. \"men\", \"women\", or \"all\" (\"all\"はデータ数がとても多いので注意)\n",
86 | " data_path=Path(\"./open_bandit_dataset\"), # データセットのパス\n",
87 | ")\n",
88 | "\n",
89 | "# デフォルトの前処理を施したデータを取得する\n",
90 | "# タイムスタンプの前半70%をトレーニングデータ、後半30%をバリデーションデータとする\n",
91 | "training_data, validation_data = dataset.obtain_batch_bandit_feedback(\n",
92 | " test_size=0.3,\n",
93 | " is_timeseries_split=True\n",
94 | ")\n",
95 | "\n",
96 | "# training_dataの中身を確認\n",
97 | "training_data.keys()"
98 | ]
99 | },
100 | {
101 | "cell_type": "code",
102 | "execution_count": 3,
103 | "metadata": {},
104 | "outputs": [
105 | {
106 | "output_type": "execute_result",
107 | "data": {
108 | "text/plain": [
109 | "34"
110 | ]
111 | },
112 | "metadata": {},
113 | "execution_count": 3
114 | }
115 | ],
116 | "source": [
117 | "# 行動(ファッションアイテム)の数\n",
118 | "dataset.n_actions"
119 | ]
120 | },
121 | {
122 | "cell_type": "code",
123 | "execution_count": 4,
124 | "metadata": {},
125 | "outputs": [
126 | {
127 | "output_type": "execute_result",
128 | "data": {
129 | "text/plain": [
130 | "4077727"
131 | ]
132 | },
133 | "metadata": {},
134 | "execution_count": 4
135 | }
136 | ],
137 | "source": [
138 | "# データ数\n",
139 | "dataset.n_rounds"
140 | ]
141 | },
142 | {
143 | "cell_type": "code",
144 | "execution_count": 5,
145 | "metadata": {},
146 | "outputs": [
147 | {
148 | "output_type": "execute_result",
149 | "data": {
150 | "text/plain": [
151 | "27"
152 | ]
153 | },
154 | "metadata": {},
155 | "execution_count": 5
156 | }
157 | ],
158 | "source": [
159 | "# デフォルトの前処理による特徴料の次元数\n",
160 | "dataset.dim_context"
161 | ]
162 | },
163 | {
164 | "cell_type": "code",
165 | "execution_count": 6,
166 | "metadata": {},
167 | "outputs": [
168 | {
169 | "output_type": "execute_result",
170 | "data": {
171 | "text/plain": [
172 | "3"
173 | ]
174 | },
175 | "metadata": {},
176 | "execution_count": 6
177 | }
178 | ],
179 | "source": [
180 | "# 推薦枠におけるポジションの数\n",
181 | "dataset.len_list"
182 | ]
183 | },
184 | {
185 | "cell_type": "code",
186 | "execution_count": null,
187 | "metadata": {},
188 | "outputs": [],
189 | "source": []
190 | },
191 | {
192 | "cell_type": "markdown",
193 | "metadata": {},
194 | "source": [
195 | "### 意思決定モデルの学習\n",
196 | "\n",
197 | "トレーニングデータを用いてIPWLearnerとランダムフォレストの組み合わせに基づく意思決定モデルを学習し、バリデーションデータに対して行動を選択する。"
198 | ]
199 | },
200 | {
201 | "cell_type": "code",
202 | "execution_count": 7,
203 | "metadata": {},
204 | "outputs": [
205 | {
206 | "output_type": "stream",
207 | "name": "stdout",
208 | "text": [
209 | "CPU times: user 4min 3s, sys: 24.7 s, total: 4min 27s\nWall time: 4min 28s\n"
210 | ]
211 | }
212 | ],
213 | "source": [
214 | "%%time\n",
215 | "# 内部で用いる分類器としてランダムフォレストを指定したIPWLearnerを定義する\n",
216 | "new_decision_making_model = IPWLearner(\n",
217 | " n_actions=dataset.n_actions, # 行動の数\n",
218 | " len_list=dataset.len_list, # 推薦枠の数\n",
219 | " base_classifier=RandomForestClassifier(\n",
220 | " n_estimators=300, max_depth=10, min_samples_leaf=5, random_state=12345\n",
221 | " ),\n",
222 | ")\n",
223 | "\n",
224 | "# トレーニングデータを用いて、意思決定意思決定モデルを学習する\n",
225 | "new_decision_making_model.fit(\n",
226 | " context=training_data[\"context\"], # 特徴量(X_i)\n",
227 | " action=training_data[\"action\"], # 過去の意思決定モデルによる行動選択\n",
228 | " reward=training_data[\"reward\"], # 観測される目的変数\n",
229 | " position=training_data[\"position\"], # 行動が提示された推薦位置(ポジション)\n",
230 | " pscore=training_data[\"pscore\"], # 過去の意思決定モデルによる行動選択確率(傾向スコア)\n",
231 | ")\n",
232 | "\n",
233 | "# バリデーションデータに対して行動を選択する\n",
234 | "action_dist = new_decision_making_model.predict(\n",
235 | " context=validation_data[\"context\"],\n",
236 | ")"
237 | ]
238 | },
239 | {
240 | "cell_type": "code",
241 | "execution_count": null,
242 | "metadata": {},
243 | "outputs": [],
244 | "source": []
245 | },
246 | {
247 | "cell_type": "markdown",
248 | "metadata": {},
249 | "source": [
250 | "### 意思決定モデルの性能評価\n",
251 | "学習した新たな意思決定モデル(IPWLearner)の性能を、バリデーションデータとIPWおよびDR推定量により評価する。"
252 | ]
253 | },
254 | {
255 | "cell_type": "code",
256 | "execution_count": 8,
257 | "metadata": {},
258 | "outputs": [
259 | {
260 | "output_type": "stream",
261 | "name": "stdout",
262 | "text": [
263 | "CPU times: user 6min 54s, sys: 1min 43s, total: 8min 38s\nWall time: 2min 4s\n"
264 | ]
265 | }
266 | ],
267 | "source": [
268 | "%%time\n",
269 | "# DR推定量を用いるのに必要な目的変数予測モデルを得る\n",
270 | "# opeモジュールに実装されている`RegressionModel`に好みの機械学習手法を与えば良い\n",
271 | "regression_model = RegressionModel(\n",
272 | " n_actions=dataset.n_actions, # 行動の数\n",
273 | " len_list=dataset.len_list, # 推薦枠内のポジションの数\n",
274 | " base_model=LogisticRegression(C=100, max_iter=10000, random_state=12345), # ロジスティック回帰を使用\n",
275 | ")\n",
276 | "\n",
277 | "# `fit_predict`メソッドにより、バリデーションデータにおける期待報酬を推定\n",
278 | "estimated_rewards_by_reg_model = regression_model.fit_predict(\n",
279 | " context=validation_data[\"context\"], # 特徴量(X_i)\n",
280 | " action=validation_data[\"action\"], # 過去の意思決定モデルによる行動選択\n",
281 | " reward=validation_data[\"reward\"], # 観測される目的変数\n",
282 | " position=validation_data[\"position\"], # 行動が提示された推薦位置(ポジション)\n",
283 | " random_state=12345,\n",
284 | ")"
285 | ]
286 | },
287 | {
288 | "cell_type": "code",
289 | "execution_count": 9,
290 | "metadata": {},
291 | "outputs": [],
292 | "source": [
293 | "# 意思決定モデルの性能評価を一気通貫で行うための`OffPolicyEvaluation`を定義する\n",
294 | "ope = OffPolicyEvaluation(\n",
295 | " bandit_feedback=validation_data, # バリデーションデータ\n",
296 | " ope_estimators=[IPS(), DR()] # 使用する推定量\n",
297 | ")"
298 | ]
299 | },
300 | {
301 | "cell_type": "code",
302 | "execution_count": 10,
303 | "metadata": {},
304 | "outputs": [
305 | {
306 | "output_type": "display_data",
307 | "data": {
308 | "text/plain": "",
309 | "image/svg+xml": "\n\n\n\n",
310 | "image/png": "\n"
311 | },
312 | "metadata": {}
313 | }
314 | ],
315 | "source": [
316 | "# 内部で用いる分類器としてロジスティック回帰を指定したIPWLearnerの性能をOPEにより評価\n",
317 | "ope.visualize_off_policy_estimates(\n",
318 | " action_dist=action_dist, # evaluation_policy_aによるバリデーションデータに対する行動選択\n",
319 | " estimated_rewards_by_reg_model=estimated_rewards_by_reg_model,\n",
320 | " is_relative=True, # 過去の意思決定モデルの性能に対する相対的な改善率を出力\n",
321 | " random_state=12345,\n",
322 | ")"
323 | ]
324 | },
325 | {
326 | "cell_type": "markdown",
327 | "metadata": {},
328 | "source": [
329 | "ここで得られた意思決定モデルの性能評価の結果から、データ収集時に用いられていたBernoulliTSモデルからIPWLearnerによる特徴量の情報を活用した個別化推薦に切り替えることで、クリック確率(意思決定モデルの性能)を30%程度向上させられる可能性が示唆された。IPWLearnerの性能について推定された95%信頼区間の下限も、1.0付近(ベースラインであるBernoulliTSモデルの性能と同程度)であるため、大きな失敗はしなさそうである。この性能評価の結果に基づき、IPWLearnerを実環境にいきなり導入したり、IPWLearnerが有望な意思決定モデルであることに対して自信を持った上で、安全にA/Bテストに進んだりできる。"
330 | ]
331 | },
332 | {
333 | "cell_type": "code",
334 | "execution_count": null,
335 | "metadata": {},
336 | "outputs": [],
337 | "source": []
338 | }
339 | ],
340 | "metadata": {
341 | "kernelspec": {
342 | "name": "python3",
343 | "display_name": "Python 3.8.2 64-bit ('3.8.2': pyenv)"
344 | },
345 | "language_info": {
346 | "codemirror_mode": {
347 | "name": "ipython",
348 | "version": 3
349 | },
350 | "file_extension": ".py",
351 | "mimetype": "text/x-python",
352 | "name": "python",
353 | "nbconvert_exporter": "python",
354 | "pygments_lexer": "ipython3",
355 | "version": "3.8.2"
356 | },
357 | "metadata": {
358 | "interpreter": {
359 | "hash": "a588998c237fcc28dc215a10a422972d26151263dec0bff02e1a95f6e2b22b77"
360 | }
361 | },
362 | "interpreter": {
363 | "hash": "a588998c237fcc28dc215a10a422972d26151263dec0bff02e1a95f6e2b22b77"
364 | }
365 | },
366 | "nbformat": 4,
367 | "nbformat_minor": 4
368 | }
--------------------------------------------------------------------------------
/ch02/synthetic-data.ipynb:
--------------------------------------------------------------------------------
1 | {
2 | "cells": [
3 | {
4 | "cell_type": "markdown",
5 | "metadata": {},
6 | "source": [
7 | "## 2章: Open Bandit Pipelineを用いた意思決定モデルの学習/性能評価の実装\n",
8 | "\n",
9 | "この実装例は主に次のステップで構成される。\n",
10 | "\n",
11 | "1. ある古い意思決定モデル$\\pi_b$が稼働することで収集されたログデータを模した工データを生成する\n",
12 | "2. トレーニングデータを用いて意思決定モデルを学習し、バリデーションデータに対して行動を選択する\n",
13 | "3. 学習した意思決定モデルの性能を、バリデーションデータを用いて推定する"
14 | ]
15 | },
16 | {
17 | "cell_type": "code",
18 | "execution_count": 1,
19 | "metadata": {},
20 | "outputs": [],
21 | "source": [
22 | "# 必要なパッケージやモジュールをインポート\n",
23 | "from sklearn.linear_model import LogisticRegression\n",
24 | "\n",
25 | "from obp.dataset import (\n",
26 | " SyntheticBanditDataset,\n",
27 | " logistic_reward_function,\n",
28 | " linear_behavior_policy\n",
29 | ")\n",
30 | "from obp.policy import IPWLearner, Random\n",
31 | "from obp.ope import (\n",
32 | " OffPolicyEvaluation, \n",
33 | " RegressionModel,\n",
34 | " InverseProbabilityWeighting as IPS,\n",
35 | " DoublyRobust as DR\n",
36 | ")"
37 | ]
38 | },
39 | {
40 | "cell_type": "code",
41 | "execution_count": null,
42 | "metadata": {},
43 | "outputs": [],
44 | "source": []
45 | },
46 | {
47 | "cell_type": "markdown",
48 | "metadata": {},
49 | "source": [
50 | "### 1. 人工データの生成"
51 | ]
52 | },
53 | {
54 | "cell_type": "code",
55 | "execution_count": 2,
56 | "metadata": {},
57 | "outputs": [
58 | {
59 | "output_type": "execute_result",
60 | "data": {
61 | "text/plain": [
62 | "{'n_rounds': 10000,\n",
63 | " 'n_actions': 3,\n",
64 | " 'context': array([[-0.20470766, 0.47894334, -0.51943872],\n",
65 | " [-0.5557303 , 1.96578057, 1.39340583],\n",
66 | " [ 0.09290788, 0.28174615, 0.76902257],\n",
67 | " ...,\n",
68 | " [ 0.42468038, 0.48214752, -0.57647866],\n",
69 | " [-0.51595888, -1.58196174, -1.39237837],\n",
70 | " [-0.74213546, -0.93858948, 0.03919589]]),\n",
71 | " 'action_context': array([[1, 0, 0],\n",
72 | " [0, 1, 0],\n",
73 | " [0, 0, 1]]),\n",
74 | " 'action': array([0, 1, 0, ..., 0, 0, 2]),\n",
75 | " 'position': None,\n",
76 | " 'reward': array([0, 1, 1, ..., 0, 0, 0]),\n",
77 | " 'expected_reward': array([[0.62697512, 0.66114455, 0.66545218],\n",
78 | " [0.73402729, 0.92955625, 0.94007301],\n",
79 | " [0.72522191, 0.79973865, 0.85946747],\n",
80 | " ...,\n",
81 | " [0.74929842, 0.68243742, 0.77801157],\n",
82 | " [0.3583225 , 0.25252838, 0.16625489],\n",
83 | " [0.41919738, 0.52158296, 0.41624562]]),\n",
84 | " 'pscore': array([0.25534252, 0.36715004, 0.25534252, ..., 0.25534252, 0.25534252,\n",
85 | " 0.37750744])}"
86 | ]
87 | },
88 | "metadata": {},
89 | "execution_count": 2
90 | }
91 | ],
92 | "source": [
93 | "# `SyntheticBanditDataset`を用いて人工データを生成する\n",
94 | "dataset = SyntheticBanditDataset(\n",
95 | " n_actions=3, # 人工データにおける行動の数\n",
96 | " dim_context=3, # 人工データにおける特徴量の次元数\n",
97 | " reward_function=logistic_reward_function, # 目的変数を生成する関数\n",
98 | " behavior_policy_function=linear_behavior_policy, # 過去の意思決定モデル\\pi_bによる行動選択確率を生成する関数\n",
99 | " random_state=12345,\n",
100 | ")\n",
101 | "\n",
102 | "# トレーニングデータとバリデーションデータを生成する\n",
103 | "training_data = dataset.obtain_batch_bandit_feedback(n_rounds=10000)\n",
104 | "validation_data = dataset.obtain_batch_bandit_feedback(n_rounds=10000)\n",
105 | "\n",
106 | "# `training_data`の中身を確認する\n",
107 | "training_data"
108 | ]
109 | },
110 | {
111 | "cell_type": "code",
112 | "execution_count": null,
113 | "metadata": {},
114 | "outputs": [],
115 | "source": []
116 | },
117 | {
118 | "cell_type": "markdown",
119 | "metadata": {},
120 | "source": [
121 | "### 2. 意思決定モデルの学習(Off-Policy Learning; OPL)\n",
122 | "\n",
123 | "トレーニングデータを用いて次の2つの意思決定意思決定モデルを学習し、バリデーションデータに対して目的変数を最大化する行動を選択する。\n",
124 | "\n",
125 | "1. IPWLearner+ロジスティック回帰\n",
126 | "2. ランダム意思決定モデル"
127 | ]
128 | },
129 | {
130 | "cell_type": "code",
131 | "execution_count": 3,
132 | "metadata": {},
133 | "outputs": [
134 | {
135 | "output_type": "stream",
136 | "name": "stdout",
137 | "text": [
138 | "CPU times: user 66.3 ms, sys: 1.8 ms, total: 68.1 ms\nWall time: 66.9 ms\n"
139 | ]
140 | }
141 | ],
142 | "source": [
143 | "%%time\n",
144 | "# 「IPWLearner+ロジスティック回帰」を定義\n",
145 | "ipw_learner = IPWLearner(\n",
146 | " n_actions=dataset.n_actions,\n",
147 | " base_classifier=LogisticRegression(C=100, random_state=12345)\n",
148 | ")\n",
149 | "\n",
150 | "# トレーニングデータを用いて、意思決定意思決定モデルを学習\n",
151 | "ipw_learner.fit(\n",
152 | " context=training_data[\"context\"], # 特徴量\n",
153 | " action=training_data[\"action\"], # 過去の意思決定モデル\\pi_bによる行動選択\n",
154 | " reward=training_data[\"reward\"], # 観測される目的変数\n",
155 | " pscore=training_data[\"pscore\"], # 過去の意思決定モデル\\pi_bによる行動選択確率(傾向スコア)\n",
156 | ")\n",
157 | "\n",
158 | "# バリデーションデータに対して行動を選択する\n",
159 | "action_choice_by_ipw_learner = ipw_learner.predict(\n",
160 | " context=validation_data[\"context\"],\n",
161 | ")"
162 | ]
163 | },
164 | {
165 | "cell_type": "code",
166 | "execution_count": 4,
167 | "metadata": {},
168 | "outputs": [
169 | {
170 | "output_type": "stream",
171 | "name": "stdout",
172 | "text": [
173 | "CPU times: user 300 µs, sys: 94 µs, total: 394 µs\nWall time: 299 µs\n"
174 | ]
175 | }
176 | ],
177 | "source": [
178 | "%%time\n",
179 | "# ランダム意思決定モデルを定義\n",
180 | "random = Random(n_actions=dataset.n_actions)\n",
181 | "\n",
182 | "# バリデーションデータに対する行動選択確率を計算する\n",
183 | "action_choice_by_random = random.compute_batch_action_dist(\n",
184 | " n_rounds=validation_data[\"n_rounds\"]\n",
185 | ")"
186 | ]
187 | },
188 | {
189 | "cell_type": "code",
190 | "execution_count": null,
191 | "metadata": {},
192 | "outputs": [],
193 | "source": []
194 | },
195 | {
196 | "cell_type": "markdown",
197 | "metadata": {},
198 | "source": [
199 | "### 3. 意思決定モデルの性能評価(Off-Policy Evaluation; OPE)\n",
200 | "\n",
201 | "2つの意思決定意思決定モデルの性能を、バリデーションデータを用いて評価する。オフライン評価には、IPS推定量とDR推定量を用いる。"
202 | ]
203 | },
204 | {
205 | "cell_type": "code",
206 | "execution_count": 5,
207 | "metadata": {},
208 | "outputs": [
209 | {
210 | "output_type": "stream",
211 | "name": "stdout",
212 | "text": [
213 | "CPU times: user 60.8 ms, sys: 23.4 ms, total: 84.2 ms\nWall time: 14 ms\n"
214 | ]
215 | }
216 | ],
217 | "source": [
218 | "%%time\n",
219 | "# DR推定量に必要な目的変数予測モデルを得る\n",
220 | "# opeモジュールに実装されている`RegressionModel`に好みの機械学習手法を与えば良い\n",
221 | "regression_model = RegressionModel(\n",
222 | " n_actions=dataset.n_actions, # 行動の数\n",
223 | " base_model=LogisticRegression(C=100, random_state=12345), # ロジスティック回帰を使用\n",
224 | ")\n",
225 | "\n",
226 | "# `fit_predict`メソッドにより、バリデーションデータにおける期待報酬を推定\n",
227 | "estimated_rewards_by_reg_model = regression_model.fit_predict(\n",
228 | " context=validation_data[\"context\"], # 特徴量\n",
229 | " action=validation_data[\"action\"], # 過去の意思決定モデル\\pi_bによる行動選択\n",
230 | " reward=validation_data[\"reward\"], # 観測される目的変数\n",
231 | " random_state=12345,\n",
232 | ")"
233 | ]
234 | },
235 | {
236 | "cell_type": "code",
237 | "execution_count": 6,
238 | "metadata": {},
239 | "outputs": [],
240 | "source": [
241 | "# 意思決定モデルの性能評価を一気通貫で行うための`OffPolicyEvaluation`を定義する\n",
242 | "ope = OffPolicyEvaluation(\n",
243 | " bandit_feedback=validation_data, # バリデーションデータ\n",
244 | " ope_estimators=[IPS(estimator_name=\"IPS\"), DR()] # 使用する推定量\n",
245 | ")"
246 | ]
247 | },
248 | {
249 | "cell_type": "code",
250 | "execution_count": 7,
251 | "metadata": {},
252 | "outputs": [
253 | {
254 | "output_type": "display_data",
255 | "data": {
256 | "text/plain": "",
257 | "image/svg+xml": "\n\n\n",
258 | "image/png": "\n"
259 | },
260 | "metadata": {}
261 | }
262 | ],
263 | "source": [
264 | "# IPWLearner+ロジスティック回帰の性能をIPS推定量とDR推定量で評価\n",
265 | "ope.visualize_off_policy_estimates_of_multiple_policies(\n",
266 | " policy_name_list=[\"IPWLearner\", \"Random\"],\n",
267 | " action_dist_list=[\n",
268 | " action_choice_by_ipw_learner, # IPWLearnerによるバリデーションデータに対する行動選択\n",
269 | " action_choice_by_random, # ランダム意思決定モデルによるバリデーションデータに対する行動選択\n",
270 | " ],\n",
271 | " estimated_rewards_by_reg_model=estimated_rewards_by_reg_model, # DR推定量に必要な期待報酬推定値\n",
272 | " random_state=12345,\n",
273 | ")"
274 | ]
275 | },
276 | {
277 | "cell_type": "markdown",
278 | "metadata": {},
279 | "source": [
280 | "### どの推定量を信じたとしても、IPWLearner(new_decision_making_model)がランダム意思決定モデル(random)の性能を上回るという結果が得られた"
281 | ]
282 | },
283 | {
284 | "source": [
285 | "### 4. 最後に2つの意思決定モデルの真の性能を確認する"
286 | ],
287 | "cell_type": "markdown",
288 | "metadata": {}
289 | },
290 | {
291 | "cell_type": "code",
292 | "execution_count": 8,
293 | "metadata": {},
294 | "outputs": [
295 | {
296 | "output_type": "stream",
297 | "name": "stdout",
298 | "text": [
299 | "IPWLearner+ロジスティック回帰の性能: 0.725425479831354\nランダム意思決定モデルの性能: 0.6525795707041967\n"
300 | ]
301 | }
302 | ],
303 | "source": [
304 | "# ipw_learnerとrandomの真の性能を計算する\n",
305 | "# これは、`SyntheticBanditDataset`の`cal_ground_truth_policy_value`メソッドを呼び出すことで計算できる\n",
306 | "performance_of_ipw_learner = dataset.calc_ground_truth_policy_value(\n",
307 | " expected_reward=validation_data['expected_reward'], # バリデーションデータにおける期待報酬\n",
308 | " action_dist=action_choice_by_ipw_learner, # 評価対象の意思決定モデルによる行動選択確率\n",
309 | ")\n",
310 | "performance_of_random = dataset.calc_ground_truth_policy_value(\n",
311 | " expected_reward=validation_data['expected_reward'], # バリデーションデータにおける期待報酬\n",
312 | " action_dist=action_choice_by_random, # 評価対象の意思決定モデルによる行動選択確率\n",
313 | ")\n",
314 | "\n",
315 | "print(f'IPWLearner+ロジスティック回帰の性能: {performance_of_ipw_learner}')\n",
316 | "print(f'ランダム意思決定モデルの性能: {performance_of_random}')"
317 | ]
318 | },
319 | {
320 | "cell_type": "code",
321 | "execution_count": null,
322 | "metadata": {},
323 | "outputs": [],
324 | "source": []
325 | }
326 | ],
327 | "metadata": {
328 | "kernelspec": {
329 | "name": "python3",
330 | "display_name": "Python 3.9.5 64-bit ('mldesignbook-ucg6RFfZ-py3.9': poetry)"
331 | },
332 | "language_info": {
333 | "codemirror_mode": {
334 | "name": "ipython",
335 | "version": 3
336 | },
337 | "file_extension": ".py",
338 | "mimetype": "text/x-python",
339 | "name": "python",
340 | "nbconvert_exporter": "python",
341 | "pygments_lexer": "ipython3",
342 | "version": "3.9.5"
343 | },
344 | "metadata": {
345 | "interpreter": {
346 | "hash": "a588998c237fcc28dc215a10a422972d26151263dec0bff02e1a95f6e2b22b77"
347 | }
348 | },
349 | "interpreter": {
350 | "hash": "0179470337d0da01265aacbae97f9e7b0116efe29a7e88412a61b2f5e9549d1a"
351 | }
352 | },
353 | "nbformat": 4,
354 | "nbformat_minor": 4
355 | }
--------------------------------------------------------------------------------
/ch03/README.md:
--------------------------------------------------------------------------------
1 | ## 第3章
2 | ### Pythonによる実装
3 | - [`mf.py`](./mf.py): IPS推定量に対応できるMatrix Factorizationを実装.
4 |
5 | ### 簡易実験
6 | - [`naive-vs-ips.ipynb`](./naive-vs-ips.ipynb): 嗜好度合いデータの観測構造にバイアスが存在する状況で、ナイーブ推定量とIPS推定量の挙動を検証.
7 |
--------------------------------------------------------------------------------
/ch03/mf.py:
--------------------------------------------------------------------------------
1 | from typing import Tuple, Optional, List
2 | from dataclasses import dataclass
3 |
4 | import numpy as np
5 | from sklearn.metrics import mean_squared_error as calc_mse
6 | from sklearn.utils import check_random_state
7 | from tqdm import tqdm
8 |
9 |
10 | @dataclass
11 | class MatrixFactorization:
12 | """MatrixFactorization.
13 |
14 | パラメータ
15 | ----------
16 | k: int
17 | ユーザ・アイテムベクトルの次元数.
18 |
19 | learning_rate: float
20 | 学習率.
21 |
22 | reg_param: float
23 | 正則化項のハイパーパラメータ.
24 |
25 | random_state: int
26 | モデルパラメータの初期化を司る乱数.
27 |
28 | """
29 |
30 | k: int
31 | learning_rate: float
32 | reg_param: float
33 | alpha: float = 0.001
34 | beta1: float = 0.9
35 | beta2: float = 0.999
36 | eps: float = 1e-8
37 | random_state: int = 12345
38 |
39 | def __post_init__(self) -> None:
40 | self.random_ = check_random_state(self.random_state)
41 |
42 | def fit(
43 | self,
44 | train: np.ndarray,
45 | val: np.ndarray,
46 | test: np.ndarray,
47 | pscore: Optional[np.ndarray] = None, # 傾向スコア (Propensity Score; pscore)
48 | n_epochs: int = 10,
49 | ) -> Tuple[List[float], List[float]]:
50 | """トレーニングデータを用いてモデルパラメータを学習し、バリデーションとテストデータに対する予測誤差の推移を出力.
51 |
52 | パラメータ
53 | ----------
54 | train: array-like of shape (データ数, 3)
55 | トレーニングデータ. (ユーザインデックス, アイテムインデックス, 嗜好度合いデータ)が3つのカラムに格納された2次元numpy配列.
56 |
57 | val: array-like of shape (データ数, 3)
58 | バリデーションデータ. (ユーザインデックス, アイテムインデックス, 嗜好度合いデータ)が3つのカラムに格納された2次元numpy配列.
59 |
60 | test: array-like of shape (データ数, 3)
61 | テストデータ. (ユーザインデックス, アイテムインデックス, 嗜好度合いデータ)が3つのカラムに格納された2次元numpy配列.
62 |
63 | pscore: array-like of shape (ユニークな嗜好度合い数,), default=None.
64 | 事前に推定された嗜好度合いごとの観測されやすさ, 傾向スコア. P(O=1|R=r).
65 | Noneが与えられた場合, ナイーブ推定量が用いられる.
66 |
67 | n_epochs: int, default=10.
68 | 学習におけるエポック数.
69 |
70 | """
71 |
72 | # 傾向スコアが設定されない場合は、ナイーブ推定量を用いる
73 | if pscore is None:
74 | pscore = np.ones(np.unique(train[:, 2]).shape[0])
75 |
76 | # ユニークユーザとユニークアイテムの数を数える
77 | n_users = np.unique(train[:, 0]).shape[0]
78 | n_items = np.unique(train[:, 1]).shape[0]
79 |
80 | # モデルパラメータを初期化
81 | self._initialize_model_parameters(n_users=n_users, n_items=n_items)
82 |
83 | # トレーニングデータを用いてモデルパラメータを学習
84 | val_loss, test_loss = [], []
85 | for _ in tqdm(range(n_epochs)):
86 | self.random_.shuffle(train)
87 | for user, item, rating in train:
88 | # 傾向スコアの逆数で予測誤差を重み付けて計算
89 | err = rating - self._predict_pair(user, item)
90 | err /= pscore[rating - 1]
91 | grad_P = err * self.Q[item] - self.reg_param * self.P[user]
92 | self._update_P(user=user, grad=grad_P)
93 | grad_Q = err * self.P[user] - self.reg_param * self.Q[item]
94 | self._update_Q(item=item, grad=grad_Q)
95 |
96 | # バリデーションデータに対する嗜好度合いの予測誤差を計算
97 | # 傾向スコアが与えられた場合はそれを用いたIPS推定量で、そうでない場合はナイーブ推定量を用いる
98 | r_hat_val = self.predict(data=val)
99 | inv_pscore_val = 1.0 / pscore[val[:, 2] - 1] # 傾向スコアの逆数
100 | val_loss.append(
101 | calc_mse(val[:, 2], r_hat_val, sample_weight=inv_pscore_val)
102 | )
103 | # テストデータにおける嗜好度合いの予測誤差を計算
104 | r_hat_test = self.predict(data=test)
105 | test_loss.append(calc_mse(test[:, 2], r_hat_test))
106 |
107 | return val_loss, test_loss
108 |
109 | def _initialize_model_parameters(self, n_users: int, n_items: int) -> None:
110 | """モデルパラメータを初期化."""
111 | self.P = self.random_.rand(n_users, self.k) / self.k
112 | self.Q = self.random_.rand(n_items, self.k) / self.k
113 | self.M_P = np.zeros_like(self.P)
114 | self.M_Q = np.zeros_like(self.Q)
115 | self.V_P = np.zeros_like(self.P)
116 | self.V_Q = np.zeros_like(self.Q)
117 |
118 | def _update_P(self, user: int, grad: np.ndarray) -> None:
119 | "与えられたユーザのベクトルp_uを与えられた勾配に基づき更新."
120 | self.M_P[user] = self.beta1 * self.M_P[user] + (1 - self.beta1) * grad
121 | self.V_P[user] = self.beta2 * self.V_P[user] + (1 - self.beta2) * (grad ** 2)
122 | M_P_hat = self.M_P[user] / (1 - self.beta1)
123 | V_P_hat = self.V_P[user] / (1 - self.beta2)
124 | self.P[user] += self.alpha * M_P_hat / ((V_P_hat ** 0.5) + self.eps)
125 |
126 | def _update_Q(self, item: int, grad: np.ndarray) -> None:
127 | "与えられたアイテムのベクトルq_iを与えられた勾配に基づき更新."
128 | self.M_Q[item] = self.beta1 * self.M_Q[item] + (1 - self.beta1) * grad
129 | self.V_Q[item] = self.beta2 * self.V_Q[item] + (1 - self.beta2) * (grad ** 2)
130 | M_Q_hat = self.M_Q[item] / (1 - self.beta1)
131 | V_Q_hat = self.V_Q[item] / (1 - self.beta2)
132 | self.Q[item] += self.alpha * M_Q_hat / ((V_Q_hat ** 0.5) + self.eps)
133 |
134 | def _predict_pair(self, user: int, item: int) -> float:
135 | """与えられたユーザ・アイテムペア(u,i)の嗜好度合いを予測する."""
136 | return self.P[user] @ self.Q[item]
137 |
138 | def predict(self, data: np.ndarray) -> np.ndarray:
139 | """与えられたデータセットに含まれる全ユーザ・アイテムペアの嗜好度合いを予測する."""
140 | r_hat_arr = np.empty(data.shape[0])
141 | for i, row in enumerate(data):
142 | r_hat_arr[i] = self._predict_pair(user=row[0], item=row[1])
143 | return r_hat_arr
144 |
--------------------------------------------------------------------------------
/ch04/README.md:
--------------------------------------------------------------------------------
1 | ## 第4章
2 |
3 | ### PyTorchを用いた実装
4 | - [`evaluate.py`](./evaluate.py): テストデータにおけるnDCG@10を計算するための関数を実装.
5 | - [`loss.py`](./loss.py): IPS推定量に基づくリストワイズ損失関数を実装.
6 | - [`model.py`](./model.py): 多層パーセプトロンに基づくスコアリング関数を実装.
7 | - [`utils.py`](./utils.py): ポジションバイアスが存在するクリックデータを生成するための関数を実装.
8 |
9 |
10 | ### 半人工データを用いた簡易実験
11 | - [`naive-vs-ips.ipynb`](./naive-vs-ips.ipynb): ポジションバイアスが存在する状況においてナイーブ推定量とIPS推定量の性能差を検証.
12 | - [`position-bias-effects.ipynb`](./position-bias-effects.ipynb): ポジションバイアスの大きさがランキング性能に与える影響を検証.
13 | - [`theta-misspecification.ipynb`](./theta-misspecification.ipynb): ポジションバイアスの大きさを見誤ったときのランキング性能の変化を検証.
14 |
--------------------------------------------------------------------------------
/ch04/evaluate.py:
--------------------------------------------------------------------------------
1 | from torch import nn
2 | from torch.utils.data import DataLoader
3 | from pytorchltr.evaluation.dcg import ndcg
4 | from pytorchltr.datasets.svmrank.svmrank import SVMRankDataset
5 |
6 | from utils import convert_rel_to_gamma
7 |
8 |
9 | def evaluate_test_performance(score_fn: nn.Module, test: SVMRankDataset) -> float:
10 | """与えられたmodelのランキング性能をテストデータにおける真の嗜好度合い情報(\gamma)を使ってnDCG@10で評価する."""
11 | loader = DataLoader(
12 | test, batch_size=1024, shuffle=False, collate_fn=test.collate_fn()
13 | )
14 | ndcg_score = 0.0
15 | for batch in loader:
16 | gamma = convert_rel_to_gamma(relevance=batch.relevance)
17 | ndcg_score += ndcg(
18 | score_fn(batch.features), gamma, batch.n, k=10, exp=False
19 | ).sum()
20 | return float(ndcg_score / len(test))
21 |
--------------------------------------------------------------------------------
/ch04/loss.py:
--------------------------------------------------------------------------------
1 | from typing import Optional
2 |
3 | from torch import ones, FloatTensor
4 | from torch.nn.functional import log_softmax
5 |
6 |
7 | def listwise_loss(
8 | scores: FloatTensor, # f_{\phi}(u,i)
9 | click: FloatTensor, # CTR(u,i,k)
10 | num_docs: FloatTensor,
11 | pscore: Optional[FloatTensor] = None, # \theta(k)
12 | ) -> FloatTensor:
13 | """リストワイズ損失.
14 |
15 | パラメータ
16 | ----------
17 | scores: FloatTensor
18 | スコアリング関数の出力.
19 |
20 | click: FloatTensor
21 | クリック有無データ. Implicit Feedback.
22 |
23 | num_docs: FloatTensor
24 | クエリごとのドキュメントの数.
25 |
26 | pscore: Optional[FloatTensor], default=None.
27 | 傾向スコア. Noneの場合は、ナイーブ推定量に基づいた損失が計算される.
28 |
29 | """
30 | if pscore is None:
31 | pscore = ones(click.shape[1])
32 | listwise_loss = 0
33 | for scores_, click_, num_docs_ in zip(scores, click, num_docs):
34 | listwise_loss_ = (click_ / pscore) * log_softmax(scores_, dim=0)
35 | listwise_loss -= listwise_loss_[:num_docs_].sum()
36 | return listwise_loss / len(scores)
37 |
--------------------------------------------------------------------------------
/ch04/model.py:
--------------------------------------------------------------------------------
1 | from dataclasses import dataclass
2 | from typing import Tuple
3 |
4 | from torch import nn, FloatTensor
5 |
6 |
7 | @dataclass(unsafe_hash=True)
8 | class MLPScoreFunc(nn.Module):
9 | """多層パーセプトロンによるスコアリング関数.
10 |
11 | パラメータ
12 | ----------
13 | input_size: int
14 | 特徴量ベクトルの次元数.
15 |
16 | hidden_layer_sizes: Tuple[int, ...]
17 | 隠れ層におけるニューロンの数を定義するタプル.
18 | (10, 10)が与えられたら、ニューロン数が10個の隠れ層を持つ多層パーセプトロンが定義される.
19 |
20 | activation_func: torch.nn.functional, default=torch.nn.functional.elu
21 | 活性化関数.
22 |
23 | """
24 |
25 | input_size: int
26 | hidden_layer_sizes: Tuple[int, ...]
27 | activation_func: nn.functional = nn.functional.elu
28 |
29 | def __post_init__(self) -> None:
30 | super().__init__()
31 | self.hidden_layers = nn.ModuleList()
32 | self.hidden_layers.append(
33 | nn.Linear(self.input_size, self.hidden_layer_sizes[0])
34 | )
35 | for hin, hout in zip(self.hidden_layer_sizes, self.hidden_layer_sizes[1:]):
36 | self.hidden_layers.append(nn.Linear(hin, hout))
37 | self.output = nn.Linear(self.hidden_layer_sizes[-1], 1)
38 |
39 | def forward(self, x: FloatTensor) -> FloatTensor:
40 | h = x
41 | for layer in self.hidden_layers:
42 | h = self.activation_func(layer(h))
43 | return self.output(h).flatten(1) # f_{\phi}, (batch_size, number_of_documents)
44 |
--------------------------------------------------------------------------------
/ch04/train.py:
--------------------------------------------------------------------------------
1 | from typing import List, Optional
2 |
3 | from torch import nn, optim
4 | from torch.utils.data import DataLoader
5 | from tqdm import tqdm
6 | from pytorchltr.datasets.svmrank.svmrank import SVMRankDataset
7 |
8 | from evaluate import evaluate_test_performance
9 | from loss import listwise_loss
10 | from utils import convert_rel_to_gamma, convert_gamma_to_implicit
11 |
12 |
13 | def train_ranker(
14 | score_fn: nn.Module,
15 | optimizer: optim,
16 | estimator: str,
17 | train: SVMRankDataset,
18 | test: SVMRankDataset,
19 | batch_size: int = 32,
20 | n_epochs: int = 30,
21 | pow_true: float = 1.0,
22 | pow_used: Optional[float] = None,
23 | ) -> List:
24 | """ランキングモデルを学習するための関数.
25 |
26 | パラメータ
27 | ----------
28 | score_fn: nn.Module
29 | スコアリング関数.
30 |
31 | optimizer: optim
32 | パラメータ最適化アルゴリズム.
33 |
34 | estimator: str
35 | スコアリング関数を学習するための目的関数を観測データから近似する推定量.
36 | 'naive', 'ips', 'ideal'のいずれかしか与えることができない.
37 | 'ideal'が与えられた場合は、真の嗜好度合いデータ(Explicit Feedback)をもとに、ランキングモデルを学習する.
38 |
39 | train: SVMRankDataset
40 | (オリジナルの)トレーニングデータ.
41 |
42 | test: SVMRankDataset
43 | (オリジナルの)テストデータ.
44 |
45 | batch_size: int, default=32
46 | バッチサイズ.
47 |
48 | n_epochs: int, default=30
49 | エポック数.
50 |
51 | pow_true: float, default=1.0
52 | ポジションバイアスの大きさを決定するパラメータ. クリックデータの生成に用いられる.
53 | pow_trueが大きいほど、ポジションバイアスの影響(真の嗜好度合いとクリックデータの乖離)が大きくなる.
54 |
55 | pow_used: Optional[float], default=None
56 | ポジションバイアスの大きさを決定するパラメータ. ランキングモデルの学習に用いられる.
57 | Noneが与えられた場合は、pow_trueと同じ値が設定される.
58 | pow_trueと違う値を与えると、ポジションバイアスの大きさを見誤ったケースにおけるランキングモデルの学習を再現できる.
59 |
60 | """
61 | assert estimator in [
62 | "naive",
63 | "ips",
64 | "ideal",
65 | ], f"estimator must be 'naive', 'ips', or 'ideal', but {estimator} is given"
66 | if pow_used is None:
67 | pow_used = pow_true
68 |
69 | ndcg_score_list = list()
70 | for _ in tqdm(range(n_epochs)):
71 | loader = DataLoader(
72 | train,
73 | batch_size=batch_size,
74 | shuffle=True,
75 | collate_fn=train.collate_fn(),
76 | )
77 | score_fn.train()
78 | for batch in loader:
79 | if estimator == "naive":
80 | click, theta = convert_gamma_to_implicit(
81 | relevance=batch.relevance, pow_true=pow_true, pow_used=pow_used
82 | )
83 | loss = listwise_loss(
84 | scores=score_fn(batch.features), click=click, num_docs=batch.n
85 | )
86 | elif estimator == "ips":
87 | click, theta = convert_gamma_to_implicit(
88 | relevance=batch.relevance, pow_true=pow_true, pow_used=pow_used
89 | )
90 | loss = listwise_loss(
91 | scores=score_fn(batch.features),
92 | click=click,
93 | num_docs=batch.n,
94 | pscore=theta,
95 | )
96 | elif estimator == "ideal":
97 | gamma = convert_rel_to_gamma(relevance=batch.relevance)
98 | loss = listwise_loss(
99 | scores=score_fn(batch.features), click=gamma, num_docs=batch.n
100 | )
101 | optimizer.zero_grad()
102 | loss.backward()
103 | optimizer.step()
104 | score_fn.eval()
105 | ndcg_score = evaluate_test_performance(score_fn=score_fn, test=test)
106 | ndcg_score_list.append(ndcg_score)
107 |
108 | return ndcg_score_list
109 |
--------------------------------------------------------------------------------
/ch04/utils.py:
--------------------------------------------------------------------------------
1 | from typing import Tuple
2 |
3 | from torch import LongTensor, FloatTensor, arange, bernoulli
4 |
5 |
6 | def convert_rel_to_gamma(
7 | relevance: LongTensor, max_rel_value: int = 4, eps: float = 0.1
8 | ) -> FloatTensor:
9 | """元データの嗜好度合いラベルを[0,1]-スケールに変換する."""
10 | gamma = 1.0 - eps
11 | gamma *= (2 ** relevance.float()) - 1
12 | gamma /= (2 ** max_rel_value) - 1
13 | gamma += eps
14 | return gamma
15 |
16 |
17 | def convert_gamma_to_implicit(
18 | relevance: LongTensor,
19 | pow_true: float = 1.0,
20 | pow_used: float = 1.0,
21 | ) -> Tuple[FloatTensor, FloatTensor]:
22 | """[0,1]-スケールの嗜好度合いをPosition-based Modelをもとにクリックデータに変換する."""
23 | gamma = convert_rel_to_gamma(relevance=relevance)
24 | theta_true = (0.9 / arange(1, gamma.shape[1] + 1)) ** pow_true
25 | theta_used = (0.9 / arange(1, gamma.shape[1] + 1)) ** pow_used
26 | click = bernoulli(gamma * theta_true)
27 | return click, theta_used
28 |
--------------------------------------------------------------------------------
/ch05/README.md:
--------------------------------------------------------------------------------
1 | ## 第5章
2 |
3 | ### PyTorchを用いた実装
4 | - [`evaluate.py`](./evaluate.py): テストデータにおけるnDCG@10を計算するための関数を実装.
5 | - [`loss.py`](./loss.py): IPS推定量に基づくリストワイズ損失関数を実装.
6 | - [`model.py`](./model.py): 多層パーセプトロンに基づくスコアリング関数を実装.
7 | - [`utils.py`](./utils.py): 半人工データを生成するための関数を実装.
8 |
9 |
10 | ### 半人工データを用いた簡易実験
11 | - [`naive-vs-ips.ipynb`](./naive-vs-ips.ipynb): 推薦枠内で定義されるKPIを扱う状況においてナイーブ推定量とIPS推定量の性能差を検証.
12 | - [`objective-misspecification.ipynb`](./objective-misspecification.ipynb): ランキングシステム構築のための方針の誤設定が性能に与える影響を検証.
13 |
--------------------------------------------------------------------------------
/ch05/evaluate.py:
--------------------------------------------------------------------------------
1 | from torch import nn
2 | from torch.utils.data import DataLoader
3 | from pytorchltr.evaluation.dcg import ndcg
4 | from pytorchltr.datasets.svmrank.svmrank import SVMRankDataset
5 |
6 | from utils import (
7 | convert_rel_to_mu,
8 | convert_rel_to_mu_zero,
9 | )
10 |
11 |
12 | def evaluate_test_performance(
13 | score_fn: nn.Module, test: SVMRankDataset, objective: str
14 | ) -> float:
15 | """与えられたスコアリング関数のランキング性能をテストデータにおける目的変数の期待値を使ってnDCG@10で評価する."""
16 | loader = DataLoader(
17 | test, batch_size=1024, shuffle=False, collate_fn=test.collate_fn()
18 | )
19 | ndcg_score = 0.0
20 | for batch in loader:
21 | mu = convert_rel_to_mu(batch.relevance)[0]
22 | mu_zero = convert_rel_to_mu_zero(batch.relevance)[0]
23 | outcome = mu if objective == "via-rec" else (mu - mu_zero)
24 | ndcg_score += ndcg(
25 | score_fn(batch.features), outcome, batch.n, k=10, exp=False
26 | ).sum()
27 | return float(ndcg_score / len(test))
28 |
--------------------------------------------------------------------------------
/ch05/loss.py:
--------------------------------------------------------------------------------
1 | from typing import Optional
2 |
3 | from torch import ones_like, FloatTensor
4 | from torch.nn.functional import log_softmax
5 |
6 |
7 | def listwise_loss(
8 | scores: FloatTensor, # f_{\phi}
9 | click: FloatTensor, # C(u,i,k)
10 | conversion: FloatTensor, # R(u,i)
11 | num_docs: FloatTensor,
12 | recommend: Optional[FloatTensor] = None, # \mathbb{I}\{ K(u,i) \neq 0 \}
13 | pscore: Optional[FloatTensor] = None, # CTR(u,i)
14 | pscore_zero: Optional[FloatTensor] = None, # e(u,i,0)
15 | ) -> FloatTensor:
16 | """リストワイズ損失.
17 |
18 | パラメータ
19 | ----------
20 | scores: FloatTensor
21 | スコアリング関数の出力. f_{\phi}.
22 |
23 | click: FloatTensor
24 | クリック発生有無データ. C(u,i,k).
25 |
26 | conversion: FloatTensor
27 | コンバージョン発生有無データ(クリック発生あとに観測される目的変数). R(u,i).
28 |
29 | num_docs: FloatTensor
30 | クエリごとのドキュメントの数.
31 |
32 | recommend: FloatTensor, default=None.
33 | 推薦有無を表すインディケータ. \mathbb{I}\{ K(u,i) \neq 0 \}
34 |
35 | pscore: Optional[FloatTensor], default=None.
36 | 傾向スコア. CTR(u,i).
37 | Noneが与えられた場合はナイーブ推定量に基づいた損失が計算される.
38 |
39 | pscore_zero: Optional[FloatTensor], default=None.
40 | アイテムがユーザに推薦されない確率. e(u,i,0).
41 | Noneが与えられた場合はナイーブ推定量に基づいた損失が計算される.
42 |
43 | """
44 | if recommend is None:
45 | recommend = ones_like(click)
46 | if pscore is None:
47 | pscore = ones_like(click)
48 | if pscore_zero is None:
49 | pscore_zero = ones_like(click)
50 | listwise_loss = 0
51 | for scores_, click_, conv_, num_docs_, recommend_, pscore_, pscore_zero_ in zip(
52 | scores, click, conversion, num_docs, recommend, pscore, pscore_zero
53 | ):
54 | weight = ((click_ / pscore_) - ((1 - recommend_) / pscore_zero_)) * conv_
55 | listwise_loss -= (weight * log_softmax(scores_, dim=-1))[:num_docs_].sum()
56 | return listwise_loss / len(scores)
57 |
--------------------------------------------------------------------------------
/ch05/model.py:
--------------------------------------------------------------------------------
1 | from dataclasses import dataclass
2 | from typing import Tuple
3 |
4 | from torch import nn, FloatTensor
5 |
6 |
7 | @dataclass(unsafe_hash=True)
8 | class MLPScoreFunc(nn.Module):
9 | """多層パーセプトロンによるスコアリング関数.
10 |
11 | パラメータ
12 | ----------
13 | input_size: int
14 | 特徴量ベクトルの次元数.
15 |
16 | hidden_layer_sizes: Tuple[int, ...]
17 | 隠れ層におけるニューロンの数を定義するタプル.
18 | (10, 10)が与えられたら、ニューロン数が10個の隠れ層を持つ多層パーセプトロンが定義される.
19 |
20 | activation_func: torch.nn.functional, default=torch.nn.functional.elu
21 | 活性化関数.
22 |
23 | """
24 |
25 | input_size: int
26 | hidden_layer_sizes: Tuple[int, ...]
27 | activation_func: nn.functional = nn.functional.elu
28 |
29 | def __post_init__(self) -> None:
30 | super().__init__()
31 | self.hidden_layers = nn.ModuleList()
32 | self.hidden_layers.append(
33 | nn.Linear(self.input_size, self.hidden_layer_sizes[0])
34 | )
35 | for hin, hout in zip(self.hidden_layer_sizes, self.hidden_layer_sizes[1:]):
36 | self.hidden_layers.append(nn.Linear(hin, hout))
37 | self.output = nn.Linear(self.hidden_layer_sizes[-1], 1)
38 |
39 | def forward(self, x: FloatTensor) -> FloatTensor:
40 | h = x
41 | for layer in self.hidden_layers:
42 | h = self.activation_func(layer(h))
43 | return self.output(h).flatten(1) # f_{\phi}, (batch_size, number_of_documents)
44 |
--------------------------------------------------------------------------------
/ch05/train.py:
--------------------------------------------------------------------------------
1 | from typing import List
2 |
3 | from torch import nn, optim
4 | from torch.utils.data import DataLoader
5 | from tqdm import tqdm
6 | from pytorchltr.datasets.svmrank.svmrank import SVMRankDataset
7 |
8 | from evaluate import evaluate_test_performance
9 | from loss import listwise_loss
10 | from utils import (
11 | convert_rel_to_mu,
12 | convert_rel_to_mu_zero,
13 | generate_click_and_recommend,
14 | )
15 |
16 |
17 | def train_ranker(
18 | score_fn: nn.Module,
19 | optimizer: optim,
20 | estimator: str,
21 | objective: str,
22 | train: SVMRankDataset,
23 | test: SVMRankDataset,
24 | batch_size: int = 32,
25 | n_epochs: int = 30,
26 | ) -> List:
27 | """ランキングモデルを学習するための関数.
28 |
29 | パラメータ
30 | ----------
31 | score_fn: nn.Module
32 | スコアリング関数.
33 |
34 | optimizer: optim
35 | パラメータ最適化アルゴリズム.
36 |
37 | estimator: str
38 | スコアリング関数を学習するための目的関数を近似する推定量.
39 | 'naive', 'ips-via-rec', 'ips-platform'のいずれかしか与えることができない.
40 |
41 | objective: str
42 | 推薦枠内経由('via_rec')のKPIを扱う場面か、プラットフォーム全体('platform')で定義されたKPI扱う場面かを指定.
43 | 'via_rec', 'platform'のいずれかしか与えることができない.
44 |
45 | train: SVMRankDataset
46 | (オリジナルの)トレーニングデータ.
47 |
48 | test: SVMRankDataset
49 | (オリジナルの)テストデータ.
50 |
51 | batch_size: int, default=32
52 | バッチサイズ.
53 |
54 | n_epochs: int, default=30
55 | エポック数.
56 |
57 | """
58 | assert estimator in [
59 | "naive",
60 | "ips-via-rec",
61 | "ips-platform",
62 | ], f"estimator must be 'naive', 'ips-via-rec', 'ips-platform', but {estimator} is given"
63 | assert objective in [
64 | "via-rec",
65 | "platform",
66 | ], f"objective must be 'via-rec' or 'objective', but {objective} is given"
67 |
68 | ndcg_score_list = list()
69 | for _ in tqdm(range(n_epochs)):
70 | loader = DataLoader(
71 | train,
72 | batch_size=batch_size,
73 | shuffle=True,
74 | collate_fn=train.collate_fn(),
75 | )
76 | score_fn.train()
77 | for batch in loader:
78 | conversion = convert_rel_to_mu(batch.relevance)[1]
79 | conversion_zero = convert_rel_to_mu_zero(batch.relevance)[1]
80 | click, pscore, recommend, pscore_zero = generate_click_and_recommend(
81 | batch.relevance
82 | )
83 | conversion_obs = conversion * click + conversion_zero * (1 - recommend)
84 | scores = score_fn(batch.features)
85 | if estimator == "naive":
86 | loss = listwise_loss(
87 | scores=scores,
88 | click=click,
89 | conversion=conversion_obs,
90 | num_docs=batch.n,
91 | )
92 | elif estimator == "ips-via-rec":
93 | loss = listwise_loss(
94 | scores=scores,
95 | click=click,
96 | conversion=conversion_obs,
97 | num_docs=batch.n,
98 | recommend=None,
99 | pscore=pscore,
100 | pscore_zero=None,
101 | )
102 | elif estimator == "ips-platform":
103 | loss = listwise_loss(
104 | scores=scores,
105 | click=click,
106 | conversion=conversion_obs,
107 | num_docs=batch.n,
108 | recommend=recommend,
109 | pscore=pscore,
110 | pscore_zero=pscore_zero,
111 | )
112 | optimizer.zero_grad()
113 | loss.backward()
114 | optimizer.step()
115 | score_fn.eval()
116 | ndcg_score = evaluate_test_performance(
117 | score_fn=score_fn, test=test, objective=objective
118 | )
119 | ndcg_score_list.append(ndcg_score)
120 |
121 | return ndcg_score_list
122 |
--------------------------------------------------------------------------------
/ch05/utils.py:
--------------------------------------------------------------------------------
1 | from typing import Tuple
2 |
3 | from torch import LongTensor, FloatTensor, bernoulli, arange
4 |
5 |
6 | def convert_rel_to_mu(
7 | relevance: LongTensor,
8 | max_rel_value: int = 4,
9 | eps: float = 0.1,
10 | ) -> Tuple[FloatTensor, FloatTensor]:
11 | """元データの嗜好度合いラベルを[0,1]-スケールの\mu(u,i)に変換する."""
12 | mu = 1 - eps
13 | mu *= (2 ** relevance.float()) - 1
14 | mu /= (2 ** max_rel_value) - 1
15 | mu += eps
16 | conversion = bernoulli(mu)
17 | return mu, conversion # \mu(u,i), R(u,i) | C(u,i,\cdot)=1
18 |
19 |
20 | def convert_rel_to_mu_zero(
21 | relevance: LongTensor,
22 | max_rel_value: int = 4,
23 | eps: float = 0.1,
24 | ) -> Tuple[FloatTensor, FloatTensor]:
25 | """元データの嗜好度合いラベルを[0,1]-スケールの\mu^{(0)}(u,i)に変換する."""
26 | mu_zero = 1 - eps
27 | mu_zero *= (2 ** relevance.float()) - 1
28 | mu_zero /= (2 ** max_rel_value) - 1
29 | mu_zero += eps
30 | mu_zero += 0.1 * (relevance == 3).float()
31 | mu_zero += 0.05 * (relevance == 2).float()
32 | mu_zero -= 0.1 * (relevance == 1).float()
33 | mu_zero -= 0.05 * (relevance == 0).float()
34 | conversion_zero = bernoulli(mu_zero)
35 | return mu_zero, conversion_zero # \mu^{(0)}(u,i), R(u,i) | C(u,i,\cdot)=0
36 |
37 |
38 | def generate_click_and_recommend(
39 | relevance: LongTensor,
40 | ) -> Tuple[FloatTensor, FloatTensor, FloatTensor, FloatTensor]:
41 | """推薦枠内でのクリック発生有無・推薦確率・推薦有無情報を適当に生成する(他の生成方法も十分あり得る)."""
42 | num_items = relevance.shape[1]
43 | pscore = 0.9 / arange(1, num_items + 1)
44 | recommend = bernoulli(pscore)
45 | mu = convert_rel_to_mu(relevance)[0]
46 | click = bernoulli(mu) * recommend # \mu(u,i)が大きいとクリックが発生しやすいとする
47 | pscore_zero = 1.0 - pscore
48 | pscore = mu * pscore # 推薦枠内でクリックが発生する確率x推薦される確率
49 | return click, pscore, recommend, pscore_zero
50 |
--------------------------------------------------------------------------------
/pyproject.toml:
--------------------------------------------------------------------------------
1 | [tool.poetry]
2 | name = "mldesignbook"
3 | version = "0.1.0"
4 | description = ""
5 | authors = ["usaito "]
6 |
7 | [tool.poetry.dependencies]
8 | python = "^3.9"
9 | torch = "^1.9.0"
10 | scikit-learn = "^0.24.2"
11 | numpy = "^1.20.3"
12 | matplotlib = "^3.4.2"
13 | seaborn = "^0.11.1"
14 | tqdm = "^4.61.1"
15 | pytorchltr = "^0.2.1"
16 | pandas = "^1.2.4"
17 | obp = "^0.4.1"
18 | jupyterlab = "^3.0.16"
19 |
20 | [tool.poetry.dev-dependencies]
21 | flake8 = "^3.9.2"
22 | black = "^21.6b0"
23 |
24 | [build-system]
25 | requires = ["poetry-core>=1.0.0"]
26 | build-backend = "poetry.core.masonry.api"
27 |
--------------------------------------------------------------------------------