エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
記事へのコメント1件
- 注目コメント
- 新着コメント
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
逆強化学習GAILの概要イメージ - Qiita
この記事について 逆強化学習に分類される手法の一つであるGAIL (Generative Adversarial Imitation Lea... この記事について 逆強化学習に分類される手法の一つであるGAIL (Generative Adversarial Imitation Learning)のイメージをまとめます。 図解 推定したいもの 方策関数$\pi(a|s)$は、状態$S(t)=s$において行動$A(s)=a$を起こす確率を表す関数です 推定したい物は、初期状態$S_{0}$から目指すべき状態$S_{t}$へ期待通り遷移できるように調整された$\pi(a|s)$です $\pi(a|s)$は基本的には初等関数のような簡単な関数とはならず推定が困難なため、ディープラーニングで関数を近似します 学習で求めるモデル $S(t)$は、システムがセンサにより把握する現在の環境状態に相当します(e.g. 障害物までの距離等) $A(s)$は、システムに対して出す制御指示に相当します(e.g. ハンドル制御角度等) 制御の結果、システム



2024/03/13 リンク