├── tmb └── PGQ: Combining policy gradient and Q-learning.png ├── init.sh ├── papers ├── [EXAMPLE-short] PGQ: Combining policy gradient and Q-learning.md ├── PGQ: Combining policy gradient and Q-learning.md ├── [EXAMPLE] PGQ: Combining policy gradient and Q-learning.md └── Model-based reinforcement learning with nearly tight exploration complexity bounds.md ├── README.md └── template.md /tmb/PGQ: Combining policy gradient and Q-learning.png: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/rl-tokyo/survey/HEAD/tmb/PGQ: Combining policy gradient and Q-learning.png -------------------------------------------------------------------------------- /init.sh: -------------------------------------------------------------------------------- 1 | #!/bin/sh 2 | 3 | echo "title:" 4 | read TITLE 5 | 6 | MD_FILE=papers/$TITLE.md 7 | 8 | cat template.md | while read line 9 | do 10 | if [ `echo "$line" | grep 'TITLE'` ]; then 11 | echo "# "${TITLE} >> $MD_FILE 12 | else 13 | echo "$line" >> $MD_FILE 14 | fi 15 | done 16 | -------------------------------------------------------------------------------- /papers/[EXAMPLE-short] PGQ: Combining policy gradient and Q-learning.md: -------------------------------------------------------------------------------- 1 | # PGQ: Combining policy gradient and Q-learning 2 | 3 | 4 | 5 | - 論文リンク: https://arxiv.org/abs/1611.01626 6 | - 出版年: 2017 7 | 8 | 9 | 10 | 14 | 18 | 19 | ## まとめ 20 | 21 | #### 概要 22 | エントロピー正則化付きの方策勾配法とQ学習を組み合わせた新しいアルゴリズムPGQを提案し、DQNやA3Cに対する優位性をAtariドメインで実験的に示した。 23 | Atariの50以上のゲームにおいて、DQNとA3Cと比較したとき3アルゴリズム中PGQが最下位になったのは1つのゲームだけという高い性能を示した。 24 | 25 | 26 | 27 | 28 | 29 | 30 | 31 | 32 | 33 | 34 | 35 | 36 | 37 | 38 | 39 | ## コメント 40 | 41 | #### @sotetsuk: 8/10 42 | - 方策勾配法はナイーブな定式化では探索をすることができずに方策が決定論的になりがちだが、探索を促すエントロピー正則化を使った方策勾配法がある意味でより自然な定式化かもしれない、という示唆とも捉えることができて面白い。 43 | - Eq.4からπとVだけを使って(妥当な)Qを計算しているのがPGQのポイントだと思った。 44 | -------------------------------------------------------------------------------- /papers/PGQ: Combining policy gradient and Q-learning.md: -------------------------------------------------------------------------------- 1 | # PGQ: Combining policy gradient and Q-learning 2 | 3 | 4 | 5 | - 論文リンク: https://arxiv.org/abs/1611.01626 6 | - 出版年: 2017 7 | - ジャーナル・カンファレンス: ICLR 8 | - 著者: Brendan O'Donoghue, Remi Munos, Koray Kavukcuoglu, Volodymyr Mnih 9 | - 所属: DeepMind 10 | - 関連リンク: 11 | - [openreview](https://openreview.net/forum?id=B1kJ6H9ex) 12 | - タグ: 13 | - :q-learning: 14 | - :policy gradient: 15 | - :atari: 16 | - :neural network: 17 | 18 | ## まとめ 19 | 20 | #### 概要 21 | エントロピー正則化付きの方策勾配法とQ学習を組み合わせた新しいアルゴリズムPGQを提案し、DQNやA3Cに対する優位性をAtariドメインで実験的に示した。 22 | 23 | #### 目的 24 | 方策勾配法は方策オン型で経験再生を使えずサンプル効率が悪いため、Q学習(方策オフ型)と組み合わせてこれを解決したい。 25 | 26 | #### 貢献(新規性・差分) 27 | 1. エントロピー正則化付きの方策勾配法の推定している方策πが、πに基づくアドバンテージ関数Aによって表せることを示した (Sec.3.1, 3.2, Eq.4) 28 | 2. 上記の関係を用いてPGQを提案・評価した (Sec.4., 5.) 29 | 3. Actor-critic法 (e.g., ベースライン付きの方策勾配法) の更新則と行動価値ベースの手法(e.g., SARSA, Q学習)の更新則が(特殊な場合に)等価であることを示した (Sec. 3.3) 30 | 31 | #### 手法 32 | PGQはまず、エントロピー正則化付きの方策勾配法で推定しているπと、この方策に基づくアドバンテージAの関係 (Eq.4) を使って、方策勾配法の推定しているπとVから、πに基づくQを計算する。このQがベルマン最適方程式に従うよう正則化をかけた方策勾配法の目的関数を最適化する。この正則加項部分の最適化をQ学習と同じく経験再生を使って行う。 33 | 34 | #### 結果 35 | 36 | ##### 1. Atariドメインでの評価 37 | Atariの50以上のゲームにおいて、得られた報酬に基づくスコアによる評価を行い、DQNとA3Cと比較を行った。 38 | 50以上のゲームにおける平均スコアだけでなくスコアの中央値でも人間のスコアを上回り、PGQとDQNとA3Cの3アルゴリズム中最下位になったのは1つのゲームだけだった。 39 | 40 | 41 | 42 | ## 次に読むべき論文 43 | - Nachum et al. (2017) [Bridging the Gap Between Value and Policy Based Reinforcement Learning](https://arxiv.org/abs/1702.08892) 44 | 45 | ## コメント 46 | 47 | #### @sotetsuk: 8/10 48 | - 方策勾配法はナイーブな定式化では探索をすることができずに方策が決定論的になりがちだが、探索を促すエントロピー正則化を使った方策勾配法がある意味でより自然な定式化かもしれない、という示唆とも捉えることができて面白い。 49 | - Eq.4からπとVだけを使って(妥当な)Qを計算しているのがPGQのポイントだと思った。 50 | -------------------------------------------------------------------------------- /papers/[EXAMPLE] PGQ: Combining policy gradient and Q-learning.md: -------------------------------------------------------------------------------- 1 | # PGQ: Combining policy gradient and Q-learning 2 | 3 | 4 | 5 | - 論文リンク: https://arxiv.org/abs/1611.01626 6 | - 出版年: 2017 7 | - ジャーナル・カンファレンス: ICLR 8 | - 著者: Brendan O'Donoghue, Remi Munos, Koray Kavukcuoglu, Volodymyr Mnih 9 | - 所属: DeepMind 10 | - 関連リンク: 11 | - [openreview](https://openreview.net/forum?id=B1kJ6H9ex) 12 | - タグ: 13 | - :q-learning: 14 | - :policy gradient: 15 | - :atari: 16 | - :neural network: 17 | 18 | ## まとめ 19 | 20 | #### 概要 21 | エントロピー正則化付きの方策勾配法とQ学習を組み合わせた新しいアルゴリズムPGQを提案し、DQNやA3Cに対する優位性をAtariドメインで実験的に示した。 22 | 23 | #### 目的 24 | 方策勾配法は方策オン型で経験再生を使えずサンプル効率が悪いため、Q学習(方策オフ型)と組み合わせてこれを解決したい。 25 | 26 | #### 貢献(新規性・差分) 27 | 1. エントロピー正則化付きの方策勾配法の推定している方策πが、πに基づくアドバンテージ関数Aによって表せることを示した (Sec.3.1, 3.2, Eq.4) 28 | 2. 上記の関係を用いてPGQを提案・評価した (Sec.4., 5.) 29 | 3. Actor-critic法 (e.g., ベースライン付きの方策勾配法) の更新則と行動価値ベースの手法(e.g., SARSA, Q学習)の更新則が(特殊な場合に)等価であることを示した (Sec. 3.3) 30 | 31 | #### 手法 32 | PGQはまず、エントロピー正則化付きの方策勾配法で推定しているπと、この方策に基づくアドバンテージAの関係 (Eq.4) を使って、方策勾配法の推定しているπとVから、πに基づくQを計算する。このQがベルマン最適方程式に従うよう正則化をかけた方策勾配法の目的関数を最適化する。この正則加項部分の最適化をQ学習と同じく経験再生を使って行う。 33 | 34 | #### 結果 35 | 36 | ##### 1. Atariドメインでの評価 37 | Atariの50以上のゲームにおいて、得られた報酬に基づくスコアによる評価を行い、DQNとA3Cと比較を行った。 38 | 50以上のゲームにおける平均スコアだけでなくスコアの中央値でも人間のスコアを上回り、PGQとDQNとA3Cの3アルゴリズム中最下位になったのは1つのゲームだけだった。 39 | 40 | 41 | 42 | ## 次に読むべき論文 43 | - Nachum et al. (2017) [Bridging the Gap Between Value and Policy Based Reinforcement Learning](https://arxiv.org/abs/1702.08892) 44 | 45 | ## コメント 46 | 47 | #### @sotetsuk: 8/10 48 | - 方策勾配法はナイーブな定式化では探索をすることができずに方策が決定論的になりがちだが、探索を促すエントロピー正則化を使った方策勾配法がある意味でより自然な定式化かもしれない、という示唆とも捉えることができて面白い。 49 | - Eq.4からπとVだけを使って(妥当な)Qを計算しているのがPGQのポイントだと思った。 50 | -------------------------------------------------------------------------------- /README.md: -------------------------------------------------------------------------------- 1 | # rl-tokyo/survey 2 | 強化学習論文のサーベイ用リポジトリです。 3 | 4 | - [スプレッドシート](https://docs.google.com/spreadsheets/d/1OvKNmXXPgSyhdZsscjzrK5QVyB7Om7voN4rdc9jhh0I/edit?usp=sharing)で進捗を管理していくことにします。 5 | - 現在フォーマット探索中です 6 | - https://github.com/rl-tokyo/survey/issues/1#issuecomment-292112577 7 | - スライド形式: https://docs.google.com/presentation/d/1P_ks8cqXcQmc8rBk7QlxcBHwfSdlNYnPmnWF0yj_nYs/edit?usp=sharing 8 | - Markdown形式: https://github.com/rl-tokyo/survey/tree/master/papers 9 | 10 | ## Markdown形式でのまとめに論文を追加する方法 11 | - テンプレートから一つのmdファイルを生成してそこに一つの論文に関する情報・まとめ・コメントを加えて行きます。 12 | - 基本的に1PR1論文。まとめ事項などに対してレビューが入った場合は対応をお願い致します。 13 | 14 | #### 例 15 | 16 | ```sh 17 | $ ./init.sh 18 | title: 19 | PGQ: Combining policy gradient and Q-learning 20 | $ ls papers 21 | PGQ: Combining policy gradient and Q-learning.md 22 | ... 23 | ``` 24 | 25 | 生成された`papers/PGQ: Combining policy gradient and Q-learning.md` にまとめ事項やコメント等を書いてPRを出してください。 26 | 27 | ## 記述項目について 28 | 複数人でサーベイしてもバラバラの書き方ではメリットを享受できないため、ある程度フォーマットを決めています。 29 | ただ細かすぎると投稿者が減ってしまうので、最低限の必要事項は少なくしてあります(**太字**)。 30 | 31 | #### 例: 32 | 33 | - [記述項目をほぼすべて埋めた例](https://github.com/rl-tokyo/survey/blob/master/papers/%5BEXAMPLE%5D%20PGQ:%20Combining%20policy%20gradient%20and%20Q-learning.md) 34 | - [最低限の記述項目だけ埋めた例](https://github.com/rl-tokyo/survey/blob/master/papers/%5BEXAMPLE-short%5D%20PGQ:%20Combining%20policy%20gradient%20and%20Q-learning.md) 35 | 36 | ### 論文情報 37 | 38 | - **タイトル** (required) 39 | - **リンク** (required) 40 | - **出版年** (required) 41 | - ジャーナル・カンファレンス (optional) : 42 | - 著者 (optional) 43 | - 所属 (optional) 44 | - 関連リンク (optional) 45 | - タグ (optional) 46 | 47 | ### (客観的な)論文まとめ 48 | 各最大3行以内が目安 49 | 50 | - **概要** (required): 何をしたのか?(一体どういったことをしている論文なのかをひと言で) 51 | - 目的 (optional): 何故したのか?(何故この研究をしたのか・何故その手法を提案したのかの理由をひと言で) 52 | - 貢献(新規性・差分)(optional): これまでの先行研究とどこが違うのか?を一言で 53 | - 手法 (optional): どうやってしたのか?(手法のポイントをひと言で) 54 | - 結果 (optional): どうなったのか?(結果がどういう指標で、どうだったのかをひと言で) 55 | - ここでは (1) どのように (2) なにを示した(主張した)のかが分かるように 56 | - (1) データセット・タスク・評価指標 57 | - (2) 結果としてどうなったか 58 | 59 | その他、強化学習理論において一般的な定理があればそれについても言及されているとよい 60 | 61 | - 定理の主張 (optional) 62 | - 定理の証明方法 (optional) 63 | 64 | ### 次に読むべき論文 65 | これも必須ではないが関連する論文があれば記述 66 | 67 | ### 主観部分 68 | 69 | - **コメントを書いたアカウント名** (required) 70 | - **点数** (required):(必読に値するかを1から10段階評価で) 71 | - フリーコメント (optional): (主張が素直に受け入れられない点や、考えられる改善点、感銘を受けた点など) 72 | -------------------------------------------------------------------------------- /template.md: -------------------------------------------------------------------------------- 1 | TITLE 2 | 3 | 6 | 7 | 8 | 9 | 31 | - 論文リンク: 32 | - 出版年: 33 | 34 | 35 | 36 | 40 | 44 | 45 | 46 | 75 | ## まとめ 76 | 77 | #### 概要 78 | 79 | 80 | 81 | 82 | 83 | 84 | 85 | 86 | 93 | 94 | 95 | 96 | 100 | 101 | 102 | 122 | ## コメント 123 | 124 | 125 | #### @XXX: X/10 126 | - 127 | 128 | 129 | 133 | 134 | 135 | 139 | -------------------------------------------------------------------------------- /papers/Model-based reinforcement learning with nearly tight exploration complexity bounds.md: -------------------------------------------------------------------------------- 1 | # Model-based reinforcement learning with nearly tight exploration complexity bounds 2 | 3 | 6 | 7 | 8 | 9 | 31 | - 論文リンク: http://machinelearning.wustl.edu/mlpapers/paper_files/icml2010_SzitaS10.pdf 32 | - 出版年: 2010 33 | - ジャーナル・カンファレンス: ICML 34 | 35 | 36 | 40 | 44 | 45 | 46 | 75 | ## まとめ 76 | 77 | #### 概要 78 | 有限MDPにおけるモデルベースの強化学習手法MORMAX (MOdified RMAX) を提案し,SoTAのsample complexityを達成することを証明した.訪問数が少ないところの報酬関数を上限値Rmaxに固定して探索に使うところが肝 79 | 80 | #### 目的 81 | 強化学習の探索におけるsample complexityを改善したい.環境が有限MDPとして与えられるときのモデルベースの手法にフォーカス 82 | 83 | #### 貢献(新規性・差分) 84 | ##### 背景 85 | モデルベースの手法を使うとsample complexityが改善すると期待されるが,既存手法のRMAXではO(N^2LogN)しか達成できず,O(NlogN) を達成するモデルフリーな遅延Q学習より悪かった(N: 状態数) 86 | 87 | ##### 新規性 88 | * モデルベースの手法を提案し,既存のsample complexityを改善,O(NlogN)を達成 89 | * モデルフリーの手法とNのオーダーは同じだが,Vmax依存の項は改善 90 | * テクニカルなバウンドの証明方法を提案(他の手法のバウンドも同様に改善できるかも) 91 | 92 | 93 | #### 手法 94 | ##### 前提 95 | * 状態空間,行動空間が有限なMDP(要素数は既知) 96 | * 報酬関数は非負で有界(上限Rmaxが既知) 97 | * 報酬関数は既知で,確率遷移カーネルは未知(報酬も未知の場合への拡張は簡単) 98 | 99 | ##### 気持ち 100 | * 状態行動対(x,a)が十分訪問されるまでは,その対をunknownとみなし,報酬をRmaxに固定する(不確かなところが訪問されやすくなる) 101 | * RMAXとの違いは,モデルの更新が行われる条件が増えたことと,m(knownとみなすまでのカウント数)が小さくなったことと,データがリフレッシュ(カウントがリセット)されること 102 | 103 | ##### アルゴリズム 104 | 1. 確率遷移カーネルを確率1で自己ループするように初期化 105 | 2. すべての状態行動対のカウントを0に設定し,報酬関数R^(x,a)をRmaxに初期化 106 | 3. MDPを解く(価値反復すればQ = Vmaxになるはず) 107 | 4. すべての状態行動対(x,a)について``unknown''とみなす 108 | 5. 初期状態をセットする 109 | 6. 以下のループを繰り返す 110 | 7. 現在の方策に従って行動をとり,x,a,yをカウントする 111 | 8. (x,a)を初めてm回訪問したとき,カウントを用いてP^(x,a,・)とQ^(x,a)とR^(x,a)を更新し,(x,a)と(x,a,・)のカウントを0に戻す.(x,a)を``known''とみなす (14行目) 112 | 9. knownな(x,a)のカウントがmになったとき,直前のモデル更新でQ^(x,a)が大きく変化した場合(14行目)のみ,カウントを使ってMDPを解く.解いた結果が17行目の条件を満たせばP^(x,a,・)とQ(・,・)を更新.最後にカウントを0に戻す 113 | 114 | 115 | 122 | 123 | #### 定理・証明していること(汎用的で重要なものであれば) 124 | * sample compleixtyをS.C.と書く.S.C.は「1-δ以上の確率で,期待収益が最適な収益と比べてεより小さくなる時刻の数が高々S.C.」であるような数として定義 125 | - εはaccuracy,δは失敗率を表す 126 | - それっぽい式で書くと $\Pr[\sum_{t} \mathbb{I}_{V_{t,M}^{\mathcal{A}} - V^*(x_t) - \epsilon} \le S.C.] \ge 1-\delta$ 127 | * **定理1**: S.C.はO(NlogN)で抑えられる 128 | * **証明**: 3.3のFの定義あたりからよくわからなくなった(教えてほしい・・) 129 | 130 | 131 | 132 | ## 次に読むべき論文 133 | "Sample Complexity Bounds of Exploration" http://www.research.cs.rutgers.edu/~lihong/pub/Li12Sample.pdf 134 | 135 | 155 | ## コメント 156 | 157 | 158 | #### @fullflu: 8/10 159 | 160 | - 「モデルベースの手法はO(N^2)の壁を越えられないのではないか」という当時の仮説を打ち破った研究で,理論研究としての価値は高い 161 | - "実用的には,古いサンプルをリセットしない方がいいかもしれないし,mをもっと小さくすべきかもしれない" と論文で言っていて,まぁせやなという感じ 162 | - 理論が好きな人には良いが,そうでない人には古くて微妙かも 163 | - 証明がノーテーション地獄で追えない・・ 164 | 165 | 166 | 170 | 171 | 172 | 176 | --------------------------------------------------------------------------------