takminのブックマーク - はてなブックマーク

takmin id:takmin

ブックマーク / qiita.com/neka-nat@github (1)

逆強化学習を理解する - Qiita
逆強化学習一般的な強化学習では、エージェントが環境からの報酬を得ることで最適な行動を獲得します。しかし現実の問題においては、この報酬を設計することが困難な場合があります。例えば運転技術を獲得する場合、うまい運転というのはただ目的地に速く着くだけでなく、急発進・急ブレーキしない、混んでなさそうな道を選ぶなど実際の報酬関数として考慮しづらい要素が存在します。逆強化学習ではエキスパートによる行動から報酬を推定することによって、このような表現しにくい報酬を求めることができます。逆強化学習の手法この記事では逆強化学習の手法としてよく取り上げられる手法の中で以下の3つについて解説したいと思います。線形計画法を用いた逆強化学習 Maximum Entropy IRL Maximum Entropy Deep IRL マルコフ決定過程(MDP) 逆強化学習に入る前にまずMDPについて説明しま
takmin 2017/11/11
強化学習

研究

まとめ

機械学習
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx