エントリーの編集

エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
記事へのコメント1件
- 注目コメント
- 新着コメント
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
強化学習の基本、行動価値関数について - HELLO CYBERNETICS
強化学習での行動評価 学習の仕方の違い(上記の記事の軽いおさらい) 教師あり学習と教示 強化学習と評... 強化学習での行動評価 学習の仕方の違い(上記の記事の軽いおさらい) 教師あり学習と教示 強化学習と評価 評価をするための行動価値関数 知識利用と探査 行動価値関数 行動価値関数の考え方 報酬の標本平均 漸化式への変形 行動価値関数更新の解釈と拡張 行動価値関数の更新式 指数減衰加重平均更新式 オプティミックス初期値 最後に 強化学習での行動評価 今回の記事は下記の記事の続きという感じで書きます。 以下の記事は強化学習の想定しているシーンや、その特殊な例であるn本腕バンディット問題などについて紹介しています。 s0sem0y.hatenablog.com 学習の仕方の違い(上記の記事の軽いおさらい) 教師あり学習と強化学習の最たる違いは学習の仕方です。 どのような情報を元に学習を行うのかが全く異なります。 教師あり学習と教示 教師あり学習では、あるデータが入力された際にシステムが出力すべき答
2017/04/30 リンク