[B! RL] agwのブックマーク

世界最大のAIコミュニティ「Kaggle」のゲームAIコンペティション「Hungry Geese」でquantumのメンバーを含むチームが優勝。

世界最大のAIコミュニティ「Kaggle」のゲーム AIコンペティション「Hungry Geese」でquantumのメンバーを含むチームが優勝。株式会社QUANTUM (本社：東京都港区、代表取締役社長兼CEO：高松充、以下「quantum」、読み方：クオンタム)のAI 技術顧問としてquantum AIを支える大渡勝己と、DeNA社の田中一樹氏によるチーム「HandyRL」は、世界中のデータサイエンティストが登録する世界最大のAIコミュニティ「Kaggle」内にてこの度開催された、ゲーム AIコンペティション「Hungry Geese」で、quantumの開発サポートのもと、参加875チーム中１位を獲得、優勝いたしました。quantumとして、Kaggleのコンペティションにおける初めての優勝となります。 Hungry Geeseは4チームが同時に対戦するゲームで、自分のチームのガチョウを

agw 2021/08/13

RL
Kaggle

リンク

Pythonで学ぶ強化学習 -入門から実践まで-を書きました

約1年半ほどかかりましたが、「Pythonで学ぶ強化学習入門から実践まで」を書き上げました。本記事ではAsian Kung-Fu Generationさんがアルバム発売の度に行っている全曲解説にのっとり、各章の見所や苦労した点を紹介したいと思います。

agw 2021/01/23

リンク

「ITエンジニアのための強化学習理論入門」が発売されます - めもめも

www.amazon.co.jp 表題の書籍が技術評論社より発売されることになりました。執筆にご協力いただいた方々には、あらためてお礼を申し上げます。販売開始に先立って、「はじめに」「目次」「図表サンプル」を掲載させていただきますので、先行予約される方の参考にしていただければと思います。はじめに「Q LearningとSARSAの違いを説明してください。」皆さんは、この質問に即答できるでしょうか？本書を読めば、自信を持って答えられます！ —— と、謎の宣伝文句（？）から始まりましたが、少しばかり背景を説明しておきましょう。 2015年に『IT エンジニアのための機械学習理論入門』(技術評論社)を出版させていただいた後、驚くほどの勢いで機械学習の入門書が書店にあふれるようになりました。そしてまた、回帰モデルによる数値予測、分類モデルによる画像データの識別など、教師データを用いた機械学習モ

agw 2020/06/18

リンク

「ITエンジニアのための強化学習理論入門」的な何かのアイデア - めもめも

元ネタ incompleteideas.net ポイント・学習の過程がステップバイステップで理解できる（目で見える）サンプルを示すことで、「なぜそれでうまく学習できるのか」を理解することを目標とする。・アルゴリズムを愚直に実装したコードを示すことで、数式ではなく、コードを通してアルゴリズムを理解する。 Tabular method Multi-arm bandit による導入 MDPの枠組みは一旦無視して、強化学習のポイントとなる「考え方」を理解する・Exploitation - Exploration のバランスが必要。典型的には ε - greedy を利用する。・環境から収集したデータを元に、行動の価値を見積もる価値関数を構成する。・データ収取と並行して、価値関数を逐次更新する。・逐次更新の方法は、一義的に決まるものではないが、「差分を一定の重みで加えて修正する」という考

agw 2020/06/15

リンク

深層強化学習アルゴリズムまとめ

はじめに深層強化学習の分野では日進月歩で新たなアルゴリズムが提案されています. それらを学ぶ上で基礎となるアルゴリズム(というより概念に近い？)はQ学習, SARSA, 方策勾配法, Actor-Criticの4つだと思われるので, これらを軸としてまとめてみたいと思います. 以下の4点はあらかじめご了承ください. コードは書いていません. 概念のみの説明です他のアルゴリズムの基礎となりうる重要な概念については詳しく書きました. その他については簡潔に書きました深層学習についてはある程度理解している読者を想定しています書いているうちに規模がどんどん大きくなってしまったので, どこかに必ず間違いや不足があります. 「この式がおかしい！」「このアルゴリズムも追加するべき！」などコメントがあればぜひお願いします全体像扱うアルゴリズムを相関図にしてみました(私のイメージです). まず,

agw 2018/11/06

RL
PRML

リンク

keras 使って DQN で迷路を解いてみた - mizchi's blog

世界観をつかめるぐらいには機械学習やっておきたいと思い、とりあえず何かしらのお題がないと興味が続かなさそうなので、二次元の盤面上で何かしらの行動をする、ローグライクのモンスターのエージェントを作るのを目標にしようと思う。自分がゲーム作るとき、大抵エージェントのルール作る段階で飽きてくるので。今回の記事は、迷路を解くところまで。学習資料 [Python]強化学習(DQN)を実装しながらKerasに慣れる - Qiita DQNをKerasとTensorFlowとOpenAI Gymで実装する全力で人工知能に対決を挑んでみた（理論編） - ニコニコ動画雰囲気を掴むのに、ニコ動の解説動画わかりやすかった。よく使われてる OpenAI Gym 、見た目は派手だが、環境変数が多すぎていまいち理解の助けにならない + 次元が多すぎて収束が遠いので、すごい単純なゲームルールを自分で作って、それ

agw 2018/10/28

リンク

これから強化学習を勉強する人のための「強化学習アルゴリズム・マップ」と、実装例まとめ - Qiita

※2018年06月23日追記 PyTorchを使用した最新版の内容を次の書籍にまとめました。つくりながら学ぶ! 深層強化学習 ~PyTorchによる実践プログラミング~ 18年6月28日発売これから強化学習を勉強したい人に向けて、「どんなアルゴリズムがあるのか」、「どの順番で勉強すれば良いのか」を示した強化学習アルゴリズムの「学習マップ」を作成しました。さらに、各手法を実際にどう実装すれば良いのかを、簡単な例題を対象に実装しました。本記事では、ひとつずつ解説します。オレンジ枠の手法は、実装例を紹介します。 ※今回マップを作るにあたっては、以下の文献を参考にしました。 ●速習強化学習: 基礎理論とアルゴリズム（書籍） ●Deep Learning for Video Game Playing 強化学習とは強化学習は、画像識別のような教師あり学習や、クラスタリングのような教師なし

agw 2017/10/30

リンク

最適制御からの強化学習 - HELLO CYBERNETICS

はじめに最適制御そもそも制御問題とは？自動制御フィードバック制御制御問題の例最適制御問題最適制御のまとめ最適制御から強化学習へ最適制御の困難強化学習の形式と最適制御との比較環境の振る舞いを知る方法は無いのか強化学習の大まかな流れモンテカルロ法 TD法関数近似最後に制御の分野と強化学習基本的思想の違い実用的問題 PID制御という巨人はじめに強化学習といえば、最強の囲碁ソフトAlpha Go に搭載されているアルゴリズムで一躍有名となった分野です。今回は強化学習の特殊な問題設定がどういうものであるかを強調するため、最適制御としての立場から発展させた強化学習を見てみたいと思います。最適制御そもそも制御問題とは？例えば、自動車の速度を調整する場合、タイヤの回転を調整する必要がありますが、私達が実際にやっているのはアクセルやブレーキを踏み込むことだけです。

agw 2017/10/29

リンク

AlphaGo Zeroの手法でリバーシの強化学習をやってみる - Qiita

はじめに Alpha Go Zeroは、囲碁AIをゼロから強化学習で鍛え上げたもので、それまで最強だったAlpha Go Masterを打ち破るという偉業を成し遂げました。そしてこのZeroの手法自体は結構シンプル、かつ、強くなれるという美味しいところ取りな手法なのです。また、そのゲームの知識を知らなくても実装できます。今回は手法の理解と検証のため、リバーシのAIを育てているので共有します。システム概要ソースコード: https://github.com/mokemokechicken/reversi-alpha-zero 動作環境確認済みなのは以下の環境です。 Python 3.6.3 tensorflow-gpu: 1.3.0 tensorflow==1.3.0 でも動きますが、非常に遅いです。play_guiの時は tensorflow(cpu) でもまあ問題ない感じで動きます。

agw 2017/10/26

リンク

速習強化学習 - 共立出版

GoogleのAlpha Goによるプロ棋士打破は、人工知能がヒトを超えた学習を行った歴史的出来事として認識された。強化学習はここで重要な役割を果たしてているだけでなく、自動運転やロボット制御などの重要な分野への応用も知られ、いま世間の強い関心を集めている。その一方、日本語で強化学習を体系的に学べる教科書は多くはなく、代表的な教科書であるSutton and Barto (1998)とその訳書も出版から20年が経とうとしている。本書はトップ会議のチュートリアルで利用されたり、2010年の出版以降わずか数年で500弱の引用がされたりという事実からも窺えるように、入門書として広く読まれている良書である。本書の内容は動的計画法などの基本的かつ重要なアルゴリズムに始まり、比較的新しい手法も体系的に網羅しつつもコンパクトに自己完結している。原著の出版から7年あまり経つが、近年の発展は本書で掲載された

agw 2017/09/22

リンク

Amazon.co.jp: 速習強化学習 ―基礎理論とアルゴリズム―: Csaba Szepesvari (著), 小山田創哲 (翻訳), 前田新一 (翻訳), 小山雅典 (翻訳), 池田春之介 (翻訳), 大渡勝己 (翻訳), 芝慎太朗 (翻訳), 関根嵩之 (翻訳), 高山晃一 (翻訳), 田中一樹 (翻訳), 西村直樹 (翻訳), 藤田康博 (翻訳), 望月駿一 (翻訳): 本

agw 2017/09/03

リンク

Understanding Agent Cooperation

Research Understanding Agent Cooperation Published 2 February 2017 Authors Joel Leibo, Marc Lanctot, Thore Graepel, Vinicius Zambaldi, Janusz Marecki We employ deep multi-agent reinforcement learning to model the emergence of cooperation. The new notion of sequential social dilemmas allows us to model how rational agents interact, and arrive at more or less cooperative behaviours depending on the

agw 2017/02/10

リンク

強化学習について学んでみた。（その5） - いものやま。

昨日は、n本腕バンディット問題と、「知識利用」と「探査」のバランスの問題について説明した。今日はn本腕バンディット問題をプログラム（Ruby）で実際に動かしてみる。正規分布に従う乱数生成器今回、n本腕バンディット問題のレバーの期待値、および、レバーを選んだときに得られる報酬は、正規分布に従うとしていた。けど、そもそも正規分布に従う乱数って、どうやって発生させるの？という話。一様分布に従う乱数なら、ライブラリを使えば簡単に得られるけれど、正規分布に従う乱数となると、そうはいかなくなる。ただ、これに関してはボックス＝ミュラー法という方法が知られているので、それを使えばいい。 #==================== # normal_dist_random.rb #==================== # 正規分布に従った乱数を生成するクラス class NormalDist

agw 2016/09/09

リンク

強化学習について学んでみた。（その4） - いものやま。

昨日は、強化学習で考える具体的な状況や、用語について説明した。今日は、もうちょっと簡単な場合について考えていく。非連想的な問題昨日の「報酬」に関する説明を聞いて、次のように思ったかもしれない。「（猿の例で）大きな箱を選んでも小さな箱を選んでも報酬がもらえないなら、猿はどうやって『大きな箱を選ぶ』という行動の価値と、『小さな箱を選ぶ』という行動の価値を学んだらいいんだろう？」これはもっともな疑問で、つまり、行動の選択を何度も繰り返した結果として報酬が得られるのだとしたら、それぞれの行動がどれくらい報酬に寄与したのかというのは、分からない。将棋とかで、ある手が実は悪手だったのだけど、相手も間違えたので、結果的に自分が勝つことが出来たりした場合、悪手を指したにも関わらず報酬がもらえてしまうので、結果、その悪手の評価が上がってしまうことすら考えられる。この問題をどう解決すればいいのか

agw 2016/09/09

リンク

強化学習について学んでみた。（その3） - いものやま。

昨日は強化学習の「強化」とは何なのかについて説明した。今日は、強化学習で考える具体的な状況や、そこで使われる用語について。エージェントと環境強化学習では、学習したり行動を決定する主体（つまりAI自身）のことを、エージェントと呼ぶ。そして、エージェントが行動した結果、状態を変えたり、あるいは報酬/罰を与えるもののことを、環境と呼ぶ。例えば、昨日の猿の例で言えば、エージェントは「猿」で、環境は「檻の中」だ。環境は、いくつかの状態を持つ。環境の可能な状態の集合をと書くことにする。例えば、猿の例だと、となる。さて、環境の状態はエージェントが行動を行っていくと、変化していく。そこで、時間ステップ（これはエージェントが行動を行うと進んでいく）をとしたときに、それぞれの状態をで表すことにする。例えば、猿の例だと、で、猿が小さな箱を選ぶという行動を行えば、となるし、大きな箱を選

agw 2016/09/09

リンク

強化学習について学んでみた。（その2） - いものやま。

昨日の記事は以下。今日は、強化学習についてもう少し説明したいと思う。「強化」って何？そもそも、「強化学習」の「強化」って何なんだ？という話。「強化」っていうと、何かを強くするのかなぁ、という感じだけど、「強化学習」という訳語の元になった英語は、"Reinforcement Learning"。つまり、「強化」というのは"Reinforcement"の訳。じゃあ、"Reinforcement"（あるいはその動詞の"Reinforce"）って何なのかというと、「補強する」とかそういった意味。（"re-in-force"で、「再度」「力を」「入れる」みたいなイメージ）といっても、"Reinforcement"の意味が「補強」だとしても、やっぱり意味がよく分からない。タネを明かせば、この「強化」（"Reinforcement"）というのは心理学の専門用語で、wikipediaで

agw 2016/09/09

リンク

強化学習入門

This document introduces deep reinforcement learning and provides some examples of its applications. It begins with backgrounds on the history of deep learning and reinforcement learning. It then explains the concepts of reinforcement learning, deep learning, and deep reinforcement learning. Some example applications are controlling building sway, optimizing smart grids, and autonomous vehicles. T