qiita.com[B!]新着記事・評価 - はてなブックマーク

『qiita.com』

逆強化学習を理解するための強化学習の基礎 - Qiita
9 users
qiita.com/yasufumy

1. はじめに逆強化学習の手法についてはこちらを御覧ください。本記事では逆強化学習の手法については解説していません。逆強化学習は、エキスパートの行動から報酬を推定する手法です。例として下図のようなことを実現することが可能になります。 (K.Kitani, et al., 2012, Activity Forecasting, ECCV) この例では、逆強化学習によって人の行動の報酬を推定し、経路予測をしています。一般的に、強化学習ではエージェントが環境から報酬を得ることで最適な行動を学習します。エージェントは環境に行動という形で働きかけ、環境はそれによって変化した状態と状態の価値である報酬をエージェントに渡します。この一連の相互作用を何度も繰り返し、報酬の最大化を目指します。強化学習の課題として、多くのタスクでこの報酬をはっきりと定義することが難しい点が挙げられます。例えば、「車を
- テクノロジー
- 2018/06/16 15:16
- あとで読む

Pythonではじめる逆強化学習 - Qiita
5 users
qiita.com/yasufumy

1. はじめに本記事ではこの論文で提案されている逆強化学習の基礎的な手法であるMaximum Entropy IRLを解説していきます。逆強化学習は強化学習をベースにしており、理解するためには強化学習の基礎知識が必要です。強化学習の基礎部分に不安がある方は、必要な基礎知識を前の記事でまとめましたのでよろしければそちらをご覧ください。 2. 逆強化学習とは逆強化学習の目的は、優秀なエージェント(エキスパート)の行動軌跡$\zeta$から、報酬関数$R(s)$を求めることです。エキスパートはあるタスクを達成できるエージェントです。行動軌跡とは、エキスパートの一連の行動を表す状態と行動のペアの系列のことです。式で次のように表すことができます。 $$ \zeta = \{(s_1,a_1),(s_2,a_2),\cdots,(s_t,a_t),\cdots,(s_T,a_T)\} $$ $s$
- テクノロジー
- 2018/06/14 20:23

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx