タグ

2016年9月8日のブックマーク (4件)

  • 強化学習について学んでみた。(その10) - いものやま。

    昨日の続き。 今日はどうやってBellman方程式を解いていくのかを考えていく。 方策評価 昨日言及した通り、ある方策の元でBellman方程式を解くと、その方策での状態価値(あるいは行動価値)が計算できる。 なので、Bellman方程式を解くことを方策評価と呼んだりする。 Bellman方程式は連立一次方程式なので、解き方はいろいろあるのだけれど、では反復解法が用いられている。 これは、後々で方策改善と組み合わせるときに、都合がよかったりするから。 なお、反復解法を用いる場合、問題によっては答えが収束せずに発散してしまうこともあるので、当は収束条件を満たしているかをチェックしないといけないんだけれど、では「収束することが一般的に示されている」の一言のみ・・・ まぁ、ここはを信じるということで。 詳細をちゃんと確認したい場合、「ヤコビ法 収束条件」などでググると、情報が出てくる。

    強化学習について学んでみた。(その10) - いものやま。
  • 「最強最速アルゴリズマー養成講座」関連の最新 ニュース・レビュー・解説 記事 まとめ - ITmedia Keywords

    最強最速アルゴリズマー養成講座: そのアルゴリズム、貪欲につき――貪欲法のススメ アルゴリズムの世界において、欲張りであることはときに有利に働くことがあります。今回は、貪欲法と呼ばれるアルゴリズムを紹介しながら、ハードな問題に挑戦してみましょう。このアルゴリズムが使えるかどうかの見極めができるようになれば、あなたの論理的思考力はかなりのレベルなのです。(2010/9/4) 最強最速アルゴリズマー養成講座: 病みつきになる「動的計画法」、その深淵に迫る 数回にわたって動的計画法・メモ化再帰について解説してきましたが、今回は実践編として、ナップサック問題への挑戦を足がかりに、その長所と短所の紹介、理解度チェックシートなどを用意しました。特に、動的計画法について深く掘り下げ、皆さんを動的計画法マスターの道にご案内します。(2010/5/15) 最強最速アルゴリズマー養成講座: アルゴリズマーの登

  • 7 強化学習シミュレーション

    hsato2011
    hsato2011 2016/09/08
    強化学習のテキスト詳しいので、後で読むこと
  • 強化学習について学んでみた。(その12) - いものやま。

    昨日は方策改善について説明した。 今日は、方策評価と方策改善を使って実際に学習を進めていく方法について。 方策反復 方策評価でまず方策の評価を行ったら、次に方策改善で方策の改善を行う。 そしたら、今度は改善された方策で再び方策評価を行い、さらに方策改善を行う・・・ というのを繰り返せば、繰り返すごとに方策は改善されていって、最後には最適方策へたどり着くことが予想される。 このような手法は、方策反復(policy iteration)と呼ばれている。 具体的には、以下のようなアルゴリズムになる。 初期化 すべてのについて、とを任意に初期化する。 方策評価 以下を繰り返す: 各について: (は十分小さい正の定数)なら、繰り返しを終了。 方策改善 各について: なら、 がtrueなら、2. 方策評価へ戻る。 そうでなければ、終了。 レンタカー問題 具体的なプログラムがどうなるのかを例示するために

    強化学習について学んでみた。(その12) - いものやま。
    hsato2011
    hsato2011 2016/09/08
    Rによる実装