hsato2011のブックマーク / 2016年9月8日

hsato2011 id:hsato2011

2016年9月8日のブックマーク (4件)

強化学習について学んでみた。（その10） - いものやま。
昨日の続き。今日はどうやってBellman方程式を解いていくのかを考えていく。方策評価昨日言及した通り、ある方策の元でBellman方程式を解くと、その方策での状態価値（あるいは行動価値）が計算できる。なので、Bellman方程式を解くことを方策評価と呼んだりする。 Bellman方程式は連立一次方程式なので、解き方はいろいろあるのだけれど、本では反復解法が用いられている。これは、後々で方策改善と組み合わせるときに、都合がよかったりするから。なお、反復解法を用いる場合、問題によっては答えが収束せずに発散してしまうこともあるので、本当は収束条件を満たしているかをチェックしないといけないんだけれど、本では「収束することが一般的に示されている」の一言のみ・・・まぁ、ここは本を信じるということで。詳細をちゃんと確認したい場合、「ヤコビ法収束条件」などでググると、情報が出てくる。
hsato2011 2016/09/08
強化学習

本

R
リンク
「最強最速アルゴリズマー養成講座」関連の最新ニュース・レビュー・解説記事まとめ - ITmedia Keywords
最強最速アルゴリズマー養成講座：そのアルゴリズム、貪欲につき――貪欲法のススメアルゴリズムの世界において、欲張りであることはときに有利に働くことがあります。今回は、貪欲法と呼ばれるアルゴリズムを紹介しながら、ハードな問題に挑戦してみましょう。このアルゴリズムが使えるかどうかの見極めができるようになれば、あなたの論理的思考力はかなりのレベルなのです。（2010/9/4）最強最速アルゴリズマー養成講座：病みつきになる「動的計画法」、その深淵に迫る数回にわたって動的計画法・メモ化再帰について解説してきましたが、今回は実践編として、ナップサック問題への挑戦を足がかりに、その長所と短所の紹介、理解度チェックシートなどを用意しました。特に、動的計画法について深く掘り下げ、皆さんを動的計画法マスターの道にご案内します。（2010/5/15）最強最速アルゴリズマー養成講座：アルゴリズマーの登
hsato2011 2016/09/08
アルゴリズム

プログラミング

algorithm

programming
リンク
7 強化学習シミュレーション
hsato2011 2016/09/08
強化学習のテキスト詳しいので、後で読むこと

あとで読む

アルゴリズム

強化学習
リンク
強化学習について学んでみた。（その12） - いものやま。
昨日は方策改善について説明した。今日は、方策評価と方策改善を使って実際に学習を進めていく方法について。方策反復方策評価でまず方策の評価を行ったら、次に方策改善で方策の改善を行う。そしたら、今度は改善された方策で再び方策評価を行い、さらに方策改善を行う・・・というのを繰り返せば、繰り返すごとに方策は改善されていって、最後には最適方策へたどり着くことが予想される。このような手法は、方策反復（policy iteration）と呼ばれている。具体的には、以下のようなアルゴリズムになる。初期化すべてのについて、とを任意に初期化する。方策評価以下を繰り返す：各について：（は十分小さい正の定数）なら、繰り返しを終了。方策改善各について：なら、がtrueなら、2. 方策評価へ戻る。そうでなければ、終了。レンタカー問題具体的なプログラムがどうなるのかを例示するために
hsato2011 2016/09/08
Rによる実装

強化学習

AI
リンク
- 2016年9月9日
- 2016年9月8日
- 2016年9月6日