2018/02/07開催のDeNA TechCon2018 Yellow Stage 14:50-15:30の発表資料です。 https://techcon.dena.com/Read less
最近、深層学習の精度を超えた手法が発表されています。 今回は、昨日(6月17日)ニュースになったDeepmindによるPredictron(自動計画+強化学習)も含めて、紹介します。
強化学習での行動評価 学習の仕方の違い(上記の記事の軽いおさらい) 教師あり学習と教示 強化学習と評価 評価をするための行動価値関数 知識利用と探査 行動価値関数 行動価値関数の考え方 報酬の標本平均 漸化式への変形 行動価値関数更新の解釈と拡張 行動価値関数の更新式 指数減衰加重平均更新式 オプティミックス初期値 最後に 強化学習での行動評価 今回の記事は下記の記事の続きという感じで書きます。 以下の記事は強化学習の想定しているシーンや、その特殊な例であるn本腕バンディット問題などについて紹介しています。 s0sem0y.hatenablog.com 学習の仕方の違い(上記の記事の軽いおさらい) 教師あり学習と強化学習の最たる違いは学習の仕方です。 どのような情報を元に学習を行うのかが全く異なります。 教師あり学習と教示 教師あり学習では、あるデータが入力された際にシステムが出力すべき答
(訳注:2016/6/28、記事を修正いたしました。) 本記事は、もう随分と前から投稿したいと思っていた強化学習(RL)に関するものです。RLは盛り上がっています。皆さんも既にご存知のこととは思いますが、今やコンピュータは ATARI製ゲームのプレイ方法を自分で学習する ことができ(それも生のゲーム画像のピクセルから!)、 囲碁 の世界チャンピオンにも勝つことができます。シミュレーションの四肢動物は 走って飛び跳ねる ことを学習しますし、ロボットは明示的にプログラミングするのが難しいような 複雑な操作のタスク でも、その実行方法を学習してしまいます。こうした進歩はいずれも、RL研究が基となって実現しています。私自身も、ここ1年ほどでRLに興味を持つようになりました。これまで、 Richard Suttonの著書 で勉強し、 David Silverのコース を通読、 John Schulm
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く