[B! *自然言語処理][**1306] mopinのブックマーク

mopin id:mopin

*自然言語処理と**1306に関するmopinのブックマーク (1)

強化学習入門
30. 強化学習の目的将来得られる報酬の総和が最大になるように政策を学習する（発散しないように）割引率を定義し，これを乗じた報酬を将来に渡り加えた総和を収益とし，この期待値を最大化する！ E " 1X t=0 t R(st, at, st+1) # , 8s0 2 S, 8a0 2 A目的関数下記の目的関数を最大にする政策関数を求める⇡ at ⇠ ⇡(at|st) st+1 ⇠ PT (st+1|st, at) st 2 S, at 2 A 2 (0, 1] 制約条件 A : ありうるすべての行動集合 S : ありうるすべての状態集合 13年5月3日金曜日 31. 強化学習の目的 E " 1X t=0 t R(st, at, st+1) # , 8s0 2 S, 8a0 2 A目的関数 ⇡⇤ (a|s) ⌘ arg max ⇡ E " 1X t=0 t R(st, at, st
mopin 2013/06/20
mail

code

IT

**1306

*あとで読む

*あとで読み直す

*機械学習

*自然言語処理
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx