強化学習 - jotunの覚え書

強化学習

作者: Richard S.Sutton,Andrew G.Barto,三上貞芳,皆川雅章
出版社/メーカー: 森北出版
発売日: 2000/12/01
メディア: 単行本（ソフトカバー）
購入: 5人クリック: 76回
この商品を含むブログ (29件) を見る

Harry Klopf「適応システムのヘテロスタティック理論」

第一章

強化学習の特徴

試行錯誤的な探索

遅延報酬

探査中心か知識利用可のジレンマ（exploration-exploitation dilemma）

強化学習の構成要素

方策

報酬関数

価値関数

環境のモデル

Tesauro

強化学習とニューラルネットによるバックギャモンのアルゴリズム

バックギャモン 10^20の状態

強化学習の源流

学習心理学

最適制御問題

TDも含めて、1980年代後半に合流

最適制御　1950年代後半から用いられる

強化学習のプロトタイプ

試行錯誤型アルゴリズム

1950 Turing

1954 Minsky（学位論文）

FaleyとClarkも同時期にこの手の研究を発表

強化学習という単語が使われるようになったのは1960年代

Minsky「人工知能に向けての歩み」（1961）

信用割り当て問題も含めて議論

FaleyとClarkの関心は汎化学習かやパターン認識（つまり教師あり学習）へと移る

強化学習と教師あり学習の用語の混同

RosenblattやWidowとHoffの研究は強化学習を指向してはいたが、実際は教師あり学習

第二章

グリーディ：それまでの経験から最も期待値の高い行動を選択

εグリーディ：εの確率でランダムに選択。それ以外はグリーディ。

ソフトマックス行動選択

第三章

第四章

動的計画法

環境についての完全な情報（状態の数と遷移の確率分布）が必要

ブートストラップ

後続（遷移しようとしている）の状態の価値を現在の状態の価値の更新に利用

第五章

訪問した状態（行動）の価値をその後の報酬から計算

逐一モンテカルロ法と初回訪問モンテカルロ法

ブートストラップを行わない

全ての状態が探索されるとは限らない

開始点探査

スタート地点をランダムにし、一定の確率で探査されるようにする

方策オン型

εグリーディのように、一定確率でランダムに選択

方策オフ型

第六章

TD(0)

学習率αと割引因子γ

TD(λ)

適格度トレース

Sarsa

行動の価値をTDで更新

方策オン型

「次に選ぶ行動の価値」で現在の行動の価値を更新

Ｑ学習

方策オフ型

「可能な行動の中で価値が最大のもの」で現在の行動の価値を更新

アクタークリティック

評価部分と方策部分が独立

Ｒ学習

第七章

適格度トレース

nステップTD学習

例えば、1ステップ後の報酬と2ステップ後の報酬と2ステップ後の状態価値で報酬を定義。

エピソードの最後まで拡張するとモンテカルロ法になる

TD(λ)

未来の報酬に対し、λで割引して足し合わせ

λ=1でモンテカルロ法

λ=0でTD(0)

累積適格度

訪問するたびに適格度を加算

連続して複数回訪問するとその後の報酬による状態価値の更新幅が大きくなる

（個人的メモ）

TD(0)で複数回学習させるのと、TD(λ)で一回学習させるのは似たようなもの？

第十一章

バックギャモンの強化学習に関するケースステディ

BPとTD学習の組み合わせ

198個の入力層、40-80の中間層、勝率を算出する出力素子から成る

入力層は、各ポイント（24箇所）にある白い駒の数を4つの素子で表現

黒い駒の数も4つの素子で表現（24*4*2=192）

残りの素子で、盤上から除かれた（ヒットされた）数と、ゴールに到着した数を表現

実戦データ（AI対AI）を取得。

それぞれのサイコロの目で可能な動かし方を全て検討させる。

動かし方ごとに状態価値（事後状態）を算出し、一番高いものを選択

自己対戦30万回後に、当時最強のプログラム（同一人物の作成したBPのプログラム）と同等の成果

（個人的メモ）

BPとBP＆TDの違いは？

入力層、中間層の構造はほとんど同じはず。

結合強度の更新法もたぶん一緒

TD誤差を学習に使うのはいいとして、状態価値をどうやって学習させているのか？

勝利したら報酬を与える？

そもそも状態はどのように定義しているのか？

盤面の駒の配置から膨大な数の状態を定義する？

あとBPの教師信号は何だろう？