逆強化学習を理解するための強化学習の基礎 - Qiita

テクノロジーカテゴリーの変更を依頼記事元:

qiita.com/yasufumy

10users がブックマークコメント

記事へのコメント1件

注目コメント
新着コメント

sh19910711 2018 / "強化学習: 報酬をはっきりと定義することが難しい / 逆強化学習では、エキスパートの行動から報酬を推定 / 「上手な運転」自体は優秀なドライバーの運転を記録することでその行動履歴を知ることができ"

2025/04/23 リンク

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

規約違反を報告

いまの話題をアプリでチェック！

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

逆強化学習を理解するための強化学習の基礎 - Qiita

Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure y... Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 1. はじめに逆強化学習の手法についてはこちらを御覧ください。本記事では逆強化学習の手法については解説していません。逆強化学習は、エキスパートの行動から報酬を推定する手法です。例として下図のようなことを実現することが可能になります。 (K.Kitani, et al., 2012, Activity Forecasting, ECCV) この例では、逆強化学習によって人の行動の報酬を推定し、経路予測をしています。一般的に、強化学習ではエージェントが環境から報酬を得ることで最適な行動を学習します。エージェントは環境に行動という形で働