エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
記事へのコメント1件
- 注目コメント
- 新着コメント
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
強化学習について学んでみた。(まとめ) - いものやま。
ということで、長く続いてきたけど、これでオシマイ。 これまでの各記事は、以下から。 強化学習とは? ... ということで、長く続いてきたけど、これでオシマイ。 これまでの各記事は、以下から。 強化学習とは? イントロダクション 強化学習のコンセプト 基本的な用語の定義 「知識利用」と「探査」のバランスの問題 非連想的な問題、n本腕バンディット問題 n本腕バンディット問題(プログラム) 行動価値の推定と改善 n本腕バンディット問題 - εグリーディ法(プログラム) n本腕バンディット問題 - ソフトマックス法(プログラム) 強化学習問題の数学的記述 状態遷移のモデル、価値ベクトル、Bellman方程式 動的計画法 方策評価 方策改善 レンタカー問題 - 方策反復(プログラム) レンタカー問題 - 価値反復(プログラム) モンテカルロ法 モンテカルロ法の考え方、モンテカルロ-ES法 ブラックジャック - モンテカルロ-ES法(プログラム) 方策オン型/オフ型モンテカルロ制御 レーストラック問題 -
2016/11/16 リンク