2017年3月25日のブックマーク (1件)

  • 強化学習について学んでみた。(まとめ) - いものやま。

    ということで、長く続いてきたけど、これでオシマイ。 これまでの各記事は、以下から。 強化学習とは? イントロダクション 強化学習のコンセプト 基的な用語の定義 「知識利用」と「探査」のバランスの問題 非連想的な問題、n腕バンディット問題 n腕バンディット問題(プログラム) 行動価値の推定と改善 n腕バンディット問題 - εグリーディ法(プログラム) n腕バンディット問題 - ソフトマックス法(プログラム) 強化学習問題の数学的記述 状態遷移のモデル、価値ベクトル、Bellman方程式 動的計画法 方策評価 方策改善 レンタカー問題 - 方策反復(プログラム) レンタカー問題 - 価値反復(プログラム) モンテカルロ法 モンテカルロ法の考え方、モンテカルロ-ES法 ブラックジャック - モンテカルロ-ES法(プログラム) 方策オン型/オフ型モンテカルロ制御 レーストラック問題 -

    強化学習について学んでみた。(まとめ) - いものやま。