[B! 強化学習] takminのブックマーク

深層強化学習アルゴリズムまとめ

はじめに深層強化学習の分野では日進月歩で新たなアルゴリズムが提案されています. それらを学ぶ上で基礎となるアルゴリズム(というより概念に近い？)はQ学習, SARSA, 方策勾配法, Actor-Criticの4つだと思われるので, これらを軸としてまとめてみたいと思います. 以下の4点はあらかじめご了承ください. コードは書いていません. 概念のみの説明です他のアルゴリズムの基礎となりうる重要な概念については詳しく書きました. その他については簡潔に書きました深層学習についてはある程度理解している読者を想定しています書いているうちに規模がどんどん大きくなってしまったので, どこかに必ず間違いや不足があります. 「この式がおかしい！」「このアルゴリズムも追加するべき！」などコメントがあればぜひお願いします全体像扱うアルゴリズムを相関図にしてみました(私のイメージです). まず,

takmin 2018/11/08

リンク

ディープマインド、ゲーム攻略AIの訓練を転移学習で大幅効率化

新しい人工知能（AI）は、1つの仕事についての洞察を別の仕事の助けにすることに成功した。機械学習のより多様な未来が垣間見える成果である。機械学習アルゴリズムのほとんどは1つの分野でしか訓練できず、1つのタスクで学習したことを使って別の新しいタスクを実行することはできない。 AIに強く望まれるのは、ある設定で得た洞察を別の場所に適用する「転移学習」と呼ばれるシステムを作ることだ。グーグルのAI子会社ディープマインド（DeepMind）は新たに、 IMPALA（インパラ）と呼ばれる複数のタスクを同時に実行するAIシステムを作り上げた。 IMPALAに57のビデオゲームをプレーさせて、学習したことを共有させようとしたところ、1つのゲームで学習したことを別のゲームを移せる兆候が示された。学習結果を共有したIMPALAは、同様のAIと比べると10分の1のデータ量で訓練が可能で、ゲームの最終スコ

takmin 2018/02/15

リンク

行動の「取り消し」で深層強化学習を効率化、グーグルらが発表

深層強化学習は、子どもが何かの技能を学ぶのと非常に似ている。習うより慣れろだ。しかし、ロボットのような自律エージェントの場合、ある試みの後に次の試みを実施する前に、エージェントを取り巻く環境を元の状態に戻さなければならない。それは例えば、人間が走り回って物体を置き直すといった時間のかかる面倒な作業になることもある。グーグル・ブレイン、ケンブリッジ大学、マックス・プランク知能システム研究所、カリフォルニア大学バークレー校の研究者は、次の試みを実施するために環境を元に戻すことや、元の状態に戻せないような行動はとらないことを、エージェントに教える方法について、アーカイブ（arXiv）に公開した新しい論文で詳細に記述している。研究者たちは、一緒に機能する「進む」と「元に戻す」方策をエージェントに与えた。「進む」方策は技能を学習するのと一緒にタスクとして課されるのに対し、「元に戻す」方策はエージ

takmin 2017/11/30

リンク

逆強化学習を理解する - Qiita

逆強化学習一般的な強化学習では、エージェントが環境からの報酬を得ることで最適な行動を獲得します。しかし現実の問題においては、この報酬を設計することが困難な場合があります。例えば運転技術を獲得する場合、うまい運転というのはただ目的地に速く着くだけでなく、急発進・急ブレーキしない、混んでなさそうな道を選ぶなど実際の報酬関数として考慮しづらい要素が存在します。逆強化学習ではエキスパートによる行動から報酬を推定することによって、このような表現しにくい報酬を求めることができます。逆強化学習の手法この記事では逆強化学習の手法としてよく取り上げられる手法の中で以下の3つについて解説したいと思います。線形計画法を用いた逆強化学習 Maximum Entropy IRL Maximum Entropy Deep IRL マルコフ決定過程(MDP) 逆強化学習に入る前にまずMDPについて説明しま

takmin 2017/11/11

リンク

これから強化学習を勉強する人のための「強化学習アルゴリズム・マップ」と、実装例まとめ - Qiita

※2018年06月23日追記 PyTorchを使用した最新版の内容を次の書籍にまとめました。つくりながら学ぶ! 深層強化学習 ~PyTorchによる実践プログラミング~ 18年6月28日発売これから強化学習を勉強したい人に向けて、「どんなアルゴリズムがあるのか」、「どの順番で勉強すれば良いのか」を示した強化学習アルゴリズムの「学習マップ」を作成しました。さらに、各手法を実際にどう実装すれば良いのかを、簡単な例題を対象に実装しました。本記事では、ひとつずつ解説します。オレンジ枠の手法は、実装例を紹介します。 ※今回マップを作るにあたっては、以下の文献を参考にしました。 ●速習強化学習: 基礎理論とアルゴリズム（書籍） ●Deep Learning for Video Game Playing 強化学習とは強化学習は、画像識別のような教師あり学習や、クラスタリングのような教師なし