rishidaのブックマーク - はてなブックマーク

rishida id:rishida

ブックマーク / caesar-wanya.hatenadiary.org (1)

強化学習・MDP - あしたからがんばる ―椀屋本舗
昨日黒橋研・河原研合同の勉強会で強化学習について話しました。話している中でわかったこともあるので、整理をするため、そのメモなど。強化学習とは一般的に言語処理で用いられる教師あり機械学習とは少し異なります。教師あり学習では入力(観測データ)x と出力(正解ラベル)y が与えられ、P(y|x)をどう解くかという問題になります(雑な説明一方、強化学習においては、入力(観測データ)x に対してモデルからの出力(action)u があり、それによって観測データx がx' へと変化します。その変化に対する報酬関数(reward function)を定義し、その報酬関数を最大化することによってモデルの振る舞いを決定する、というアプローチになります。強化学習はモデルの振る舞いの系列と、それに対するデータの変化を扱うことができるので、ロボット制御や対話制御などによく用いられます。強化学習全体を図に
rishida 2015/06/11
Partially Observed Markov Decision Processの話

強化学習

資料
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx