エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
記事へのコメント1件
- 注目コメント
- 新着コメント
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
PyBrainを用いて強化学習をしてみた - Qiita
Pybrainはニューラルネットワークの仕組みが実装されているPythonのライブラリです。 今回はチュートリ... Pybrainはニューラルネットワークの仕組みが実装されているPythonのライブラリです。 今回はチュートリアルに乗っている強化学習(Reinforcement Learning)をやったので備忘録の意味も込めて記述しておきます。 強化学習とは試行錯誤を通じて環境に適応する学習制御の枠組です。 例えば 新米セールスマンをエージェントとして、環境をお客さんとします。 その再に新米セールスマンがセールスする行動をアクション セールスに対するお客様の反応を状態観測 それに対する”お客様の購買意欲が上がったか”を報酬とします。 新米セールスマンはセールスの経験がないので報酬つまり”お客様の購買意欲が上がったか”が正確なものか把握できません。 またセールスに対するお客様の反応も新米セールスマンは正確に把握することはできません。 このような不確実性の高く、教師データもないような状況で使われる強化学習



2015/05/13 リンク