2020年5月2日のブックマーク (1件)

  • ICLR2018参加報告第3回(強化学習におけるカリキュラム生成と模倣学習) | DeepX AI Blog

    実際に強化学習を機械制御に応用させる前には、しばしばタスクを設計する必要があります。これは、適用対象の機械やその機械で達成したい操作がまだ強化学習のタスクとして設計されていないことが多いためです。タスク設計においては、状態空間、行動空間、報酬関数それぞれを設計します。中でも設計が難しく、研究対象として注目されているのが報酬関数の設計になります。実際に、複雑な制御・操作においては、実験結果を踏まえた報酬関数の改良を繰り返すことが多いです。 この2つの機能を果たす完璧な報酬を人が設計することは非常に難しく手間がかかります。次の章では報酬設計の不備が引き起こす問題に関して説明します。 報酬設計の不備による問題 報酬設計の不備によって主に方策の学習ができない、学習できたとしても学習後のエージェントの挙動が意図した挙動でないという2つの問題が生じます。 この章では過去の研究文献で報告された報酬設計の

    ICLR2018参加報告第3回(強化学習におけるカリキュラム生成と模倣学習) | DeepX AI Blog
    masato-ka
    masato-ka 2020/05/02