強化学習
- 作者: Richard S.Sutton,Andrew G.Barto,三上貞芳,皆川雅章
- 出版社/メーカー: 森北出版
- 発売日: 2000/12/01
- メディア: 単行本(ソフトカバー)
- 購入: 5人 クリック: 76回
- この商品を含むブログ (29件) を見る
Harry Klopf「適応システムのヘテロスタティック理論」
第一章
強化学習の特徴
試行錯誤的な探索
遅延報酬
探査中心か知識利用可のジレンマ(exploration-exploitation dilemma)
強化学習の構成要素
方策
報酬関数
価値関数
環境のモデル
Tesauro
強化学習とニューラルネットによるバックギャモンのアルゴリズム
バックギャモン 10^20の状態
強化学習の源流
最適制御問題
TDも含めて、1980年代後半に合流
最適制御 1950年代後半から用いられる
強化学習のプロトタイプ
試行錯誤型アルゴリズム
1950 Turing
1954 Minsky(学位論文)
FaleyとClarkも同時期にこの手の研究を発表
強化学習という単語が使われるようになったのは1960年代
信用割り当て問題も含めて議論
FaleyとClarkの関心は汎化学習かやパターン認識(つまり教師あり学習)へと移る
RosenblattやWidowとHoffの研究は強化学習を指向してはいたが、実際は教師あり学習
第二章
グリーディ:それまでの経験から最も期待値の高い行動を選択
εグリーディ:εの確率でランダムに選択。それ以外はグリーディ。
ソフトマックス行動選択
第三章
第四章
環境についての完全な情報(状態の数と遷移の確率分布)が必要
ブートストラップ
後続(遷移しようとしている)の状態の価値を現在の状態の価値の更新に利用
第五章
訪問した状態(行動)の価値をその後の報酬から計算
ブートストラップを行わない
全ての状態が探索されるとは限らない
開始点探査
スタート地点をランダムにし、一定の確率で探査されるようにする
方策オン型
εグリーディのように、一定確率でランダムに選択
方策オフ型
第六章
TD(0)
学習率αと割引因子γ
TD(λ)
適格度トレース
Sarsa
行動の価値をTDで更新
方策オン型
「次に選ぶ行動の価値」で現在の行動の価値を更新
Q学習
方策オフ型
「可能な行動の中で価値が最大のもの」で現在の行動の価値を更新
アクタークリティック
評価部分と方策部分が独立
R学習
第七章
適格度トレース
nステップTD学習
例えば、1ステップ後の報酬と2ステップ後の報酬と2ステップ後の状態価値で報酬を定義。
エピソードの最後まで拡張するとモンテカルロ法になる
TD(λ)
未来の報酬に対し、λで割引して足し合わせ
λ=1でモンテカルロ法
λ=0でTD(0)
累積適格度
訪問するたびに適格度を加算
連続して複数回訪問するとその後の報酬による状態価値の更新幅が大きくなる
(個人的メモ)
TD(0)で複数回学習させるのと、TD(λ)で一回学習させるのは似たようなもの?
第十一章
BPとTD学習の組み合わせ
198個の入力層、40-80の中間層、勝率を算出する出力素子から成る
入力層は、各ポイント(24箇所)にある白い駒の数を4つの素子で表現
黒い駒の数も4つの素子で表現(24*4*2=192)
残りの素子で、盤上から除かれた(ヒットされた)数と、ゴールに到着した数を表現
実戦データ(AI対AI)を取得。
それぞれのサイコロの目で可能な動かし方を全て検討させる。
動かし方ごとに状態価値(事後状態)を算出し、一番高いものを選択
自己対戦30万回後に、当時最強のプログラム(同一人物の作成したBPのプログラム)と同等の成果
(個人的メモ)
BPとBP&TDの違いは?
入力層、中間層の構造はほとんど同じはず。
結合強度の更新法もたぶん一緒
TD誤差を学習に使うのはいいとして、状態価値をどうやって学習させているのか?
勝利したら報酬を与える?
そもそも状態はどのように定義しているのか?
盤面の駒の配置から膨大な数の状態を定義する?
あとBPの教師信号は何だろう?