ベイズによる逆強化学習が、杉山先生の密度比による逆強化学習と同じ手法になったので、残る有名な手法はFIRL(Feature Construction IRL)のみになった。 この手法は下記のAbbeel率いるBarkleyチームのLevineによる論文がある。 https://homes.cs.washington.edu/~zoran/firl.pdf この手法はこれまでの報酬を固定の特徴量の近似関数で表す手法と全く異なっていて、特徴量を回帰木で分解して有意な特徴量を選択しながら、2次計画法で最適な報酬関数を求める方法となっている。 ここで は熟練者の行動データ は回帰木で選択した特徴量 は改善対象の報酬関数 は同じ状態をもつグループを繋ぐ正則化項 拘束条件では熟練者の行動範囲であれば、正しい価値関数が計算され、それを逸脱すると、劣化した価値関数が計算される。逸脱した行動は観測できないの