サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
Wikipedia
ai.deepx.co.jp
実際に強化学習を機械制御に応用させる前には、しばしばタスクを設計する必要があります。これは、適用対象の機械やその機械で達成したい操作がまだ強化学習のタスクとして設計されていないことが多いためです。タスク設計においては、状態空間、行動空間、報酬関数それぞれを設計します。中でも設計が難しく、研究対象として注目されているのが報酬関数の設計になります。実際に、複雑な制御・操作においては、実験結果を踏まえた報酬関数の改良を繰り返すことが多いです。 この2つの機能を果たす完璧な報酬を人が設計することは非常に難しく手間がかかります。次の章では報酬設計の不備が引き起こす問題に関して説明します。 報酬設計の不備による問題 報酬設計の不備によって主に方策の学習ができない、学習できたとしても学習後のエージェントの挙動が意図した挙動でないという2つの問題が生じます。 この章では過去の研究文献で報告された報酬設計の
こんにちは、エンジニアの中村です。 今回は、ニューラルネットワークの蒸留に関する連載記事の第3回目の記事になります。 第1回では、蒸留という手法の端緒であるモデル圧縮から始めて、蒸留の基本的な概念を説明し、その後の蒸留の発展を含めて、蒸留という分野の概観を紹介しました。第2回では、蒸留によるモデル圧縮について、分類タスクと回帰タスクそれぞれについて個別の研究を取り上げて、それらの詳細を紹介しました。特に、分類タスクでは蒸留の基本的な効果と蒸留によって得られる正則化効果について、また,回帰タスクでは蒸留を応用するために必要な工夫を紹介しました。 第3回目にあたる今回は、第1回で概要に触れた蒸留の発展について、個別の研究を取り上げて、詳細を紹介していきます。モデル圧縮のための手法として考案された蒸留ですが、「教師モデルの出力を生徒モデルの学習に使用する」という蒸留の基本コンセプトは、モデル圧縮
こんにちは、エンジニアの中村です。 前回の記事 (蒸留 第1回) で、ディープラーニング技術における蒸留という手法の基本とその発展を俯瞰的に見てきました。 その中で、ディープラーニングを実用する際に直面する本番環境の計算リソースの制約という問題について触れました。蒸留は、ディープラーニングのモデルを軽量化させる機能があり、それにより、この問題を緩和・解消できることに言及しました。また、具体的には、訓練済みモデルに蓄えられた知識を別の軽量なモデルに継承する形でディープラーニングモデルを軽量化し (モデル圧縮)、本番環境の制約下でも使用可能な、軽量かつ高性能なモデルを開発可能とすることを紹介しました。 今回の記事では、蒸留によるモデル圧縮について、該当する論文をいくつか参照して、詳細に紹介していきたいと思います。分類タスク、回帰タスクそれぞれの代表的な研究例を取り上げます。まず、分類タスクにお
こんにちは、エンジニアの中村です。 今回から数回にわたって、ディープラーニング技術の実用上の重要な課題を解決する蒸留という手法について紹介したいと思います。 ディープラーニングは非常に魅力的なモデル学習技術ですが、実際に使用する際には計算リソースがボトルネックとなり、利用可能なシーンが限定されてしまうことがあります。せっかくの魅力的な技術も、そうなってしまうと宝の持ち腐れです。蒸留は、精度を損なわずに計算負荷の小さいモデルを訓練することを可能にし、ディープラーニングが実際に利用できるシーンを拡大します。 また、蒸留はこうした計算リソースに起因する ディープラーニングの実用上の課題を解決するだけでなく、モデルの精度向上、訓練の効率化、敵対的攻撃(Adversarial Attack)に対する防御など、その他のさまざまな用途に使用可能な応用領域の広い手法でもあります。 今回の記事では、モデル圧
エンジニアの吉田です。 ICLR2018の参加報告を計4回にわたって行なっており、今回は2回目にあたります。 第1回の報告では、ICLR2018の概要(ハコ)と強化学習の研究領域の簡単な紹介をしました。第2回以降では、ICLR2018で発表された論文(ナカミ)の紹介をしていきます。発表された中で印象深かった論文をピックアップして分野別に3回に分けて紹介する予定です。 特に、今回は、強化学習における転移学習に関連する論文を紹介します。まずは転移学習と、転移学習と密接に関係するメタラーニングに関して整理します。続いて、ICLR2018において発表された転移学習とメタラーニングに関する論文をそれぞれ1つずつ紹介します。 ▼目次 転移学習とメタラーニングの整理 ICLR2018の転移学習とメタラーニングの論文紹介 転移学習とメタラーニングの整理 転移学習とは 転移学習とは、ソースタスクで学習したモ
このページを最初にブックマークしてみませんか?
『ai.deepx.co.jp』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く