ai.deepx.co.jp[B!]新着記事・評価 - はてなブックマーク

『ai.deepx.co.jp』

ICLR2018参加報告第３回（強化学習におけるカリキュラム生成と模倣学習） | DeepX AI Blog
3 users
ai.deepx.co.jp

実際に強化学習を機械制御に応用させる前には、しばしばタスクを設計する必要があります。これは、適用対象の機械やその機械で達成したい操作がまだ強化学習のタスクとして設計されていないことが多いためです。タスク設計においては、状態空間、行動空間、報酬関数それぞれを設計します。中でも設計が難しく、研究対象として注目されているのが報酬関数の設計になります。実際に、複雑な制御・操作においては、実験結果を踏まえた報酬関数の改良を繰り返すことが多いです。この2つの機能を果たす完璧な報酬を人が設計することは非常に難しく手間がかかります。次の章では報酬設計の不備が引き起こす問題に関して説明します。報酬設計の不備による問題報酬設計の不備によって主に方策の学習ができない、学習できたとしても学習後のエージェントの挙動が意図した挙動でないという2つの問題が生じます。この章では過去の研究文献で報告された報酬設計の
- テクノロジー
- 2019/02/18 19:01
- 機械学習

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx