東京大学松尾研究室 強化学習サマースクール2020 第5回 https://deeplearning.jp/reinforcement_cource-2020s/Read less
実務でモデルフリー強化学習を活用しようとして勉強したことを書きます ドコモの先進技術研究所1年目の勝見と申します。今回は先輩から誘われて、アドベントカレンダーの記事の12日目を担当することになりました。本来は現在行っているデータ分析周りの業務になにか絡めて書けると良いのですが、残念ながらまだオープンにできるようなネタはありませんので、私が業務での実タスクに応用しようと検討を行っている強化学習(モデルフリー)の初学者向けの記事を自身のためのまとめも兼ねて、学習の過程で個人的に面白いなと感じたポイントを織り交ぜながら書こうと思います。 マルコフ決定過程 (Markov decision process) このあたりは多くの記事でも取り上げられているため今更感がありますが、強化学習をタスクに適用するために必要となる定式化について説明しておきます。 強化学習では取り扱う問題を、エージェントが起こし
Free-kicks taken by the AI bot, trained through 1000 epochs of the Reinforcement Learning process.In my previous article, I presented an AI bot trained to play the game of FIFA using Supervised Learning technique. With this approach, the bot quickly learnt the basics of the game like passing and shooting. However, the training data required to improve it further quickly became cumbersome to gather
for i in range(1, 101): if i % 15 == 0: print("FizzBuzz") elif i % 3 == 0: print("Fizz") elif i % 5 == 0: print("Buzz") else: print(i) プログラム問題としてあまりにも有名になってしまったので、今ではあらゆる言語のFizzBuzzがそろっています。面白いですね。 深層学習 で FizzBuzz この記事の読まれている大半の方は、FizzBuzzを書くのにあまり苦労しないでしょう。 しかし、あなたが何かの拍子でプログラムの書き方を忘れてしまったらどうでしょう? 心配する必要はありません。そういうときこそAIの出番です。 最近は空前の人工知能ブームで、猫も杓子もDeep Learningです。 実際、Deep LearningによるFizzBuzzは、いくつも先例
自己対戦と深層学習でマシンにコネクトフォー(Connect4:四目並べ)の戦略を学習させましょう。 この記事では次の3つの話をします。 AlphaZeroが人工知能(AI)への大きなステップである2つの理由 AlphaZeroの方法論のレプリカを 作って コネクト4のゲームをプレイさせる方法 そのレプリカを改良して他のゲームをプラグインする方法 AlphaGo→AlphaGo Zero→AlphaZero 2016年3月、DeepmindのAlphaGo(アルファ碁)が、囲碁の18回の世界王者、李世乭(イー・セドル)との五番勝負で、2億人の見守る中、4-1で勝利しました。機械が超人的な囲碁の技を学習したのです。不可能だとか、少なくとも10年間は達成できないと思われていた偉業です。 AlphaGo 対 李世乭の第3局 このことだけでも驚くべき功績ですが、DeepMindは、2017年10月、
Unity AI に関するブログシリーズ第 2 回となる本記事では、前回に引き続きコンテクスチュアルバンディット問題を完全な強化学習問題へ拡張する方法を解説します。その一環として、学習された Q 関数(特定の環境下における特定のアクション実行の長期的価値を予測するもの)によって行動するエージェントの使用方法を示したデモもご提供します。この例では、簡単なグリッドと Q 関数の表のみを使用します。幸運なことに、このベーシックなコンセプトがほぼ全てのゲームに当てはまります。Q 学習のデモは、こちらのリンクからお試しにいただけます。以下本文では、Q 学習の仕組みに関する詳細なウォークスルーをお届けします。 コンテクスチュアルバンディットに関する前回のまとめ 強化学習を行う目的は、特定の環境内で、未来の報酬を最大化させるための行動を学習できるエージェントをトレーニングすることです。本シリーズ前回の記
技術書(訳書)を出版社から初めて刊行したのですが、その過程で経験したことなどを共有することで誰かの役に立てて貰えれば、と言うのがこの記事の趣旨になります。最近では他にも、"CSの定番教科書「Open Data Structures」を日本にも届けたい!"というプロジェクトもあり、こうした草の根の技術書の翻訳活動がもう少し日本にあってもいいのではと個人的に思っています。理系専門書に邦訳が必要なのかどうか(英語で読めばいいでしょ論)は立場が別れるところだとは思いますが、私は基本的に上記プロジェクト内の次の一文と同じ立場です。 そして、母国語でこのような入門書が読める、少なくともその選択肢があるのは望ましいことだと考えています。 なお、この記事も前の記事に引き続き、2017年に書きかけだった記事の供養です(投稿は2018年の年始)。 年末にやりたかったのですが、年始になってしまいました。。。 ど
少し(というか結構)前になりますが、2017年9月に「速習 強化学習 ―基礎理論とアルゴリズム―」という本を刊行しましたので、簡単に紹介します(Twitter, FBでは告知しましたがブログがまだでした)。 GoogleのAlphaGoによるプロ棋士打破は,人工知能がヒトを超えた学習を行った歴史的出来事として認識された。強化学習はここで重要な役割を果たしてているだけでなく,自動運転やロボット制御などの重要な分野への応用も知られ,いま世間の強い関心を集めている。その一方,日本語で強化学習を体系的に学べる教科書は多くはなく,代表的な教科書であるSutton and Barto (1998)とその訳書も出版から20年が経とうとしている。 本書はトップ会議のチュートリアルで利用されたり,2010年の出版以降わずか数年で500弱の引用がされたりという事実からも窺えるように,入門書として広く読まれてい
【強化学習初心者向け】シンプルな実装例で学ぶSARSA法およびモンテカルロ法【CartPoleで棒立て:1ファイルで完結】Python機械学習強化学習 ※2018年06月23日追記 PyTorchを使用した最新版の内容を次の書籍にまとめました。 つくりながら学ぶ! 深層強化学習 ~PyTorchによる実践プログラミング~ 18年6月28日発売 強化学習の代表的な手法である「SARSA法」と「モンテカルロ法」の、実装コード紹介と解説を行います 学習する対象には、強化学習の「Hello World!」的存在である「CartPole」を使用します。 概要 強化学習の代表的な手法であるSARSA法、モンテカルロ法の2通りを実装・解説します。 ※ディープラーニングは使用しません。古典的?な強化学習です。 ・どちらも150行程度の短いプログラムです ・外部の強化学習ライブラリなどを使用せず、自力で組ん
こんにちは。アナリティクスサービス本部の仲田です。 本日は、「強化学習」について、その基礎的なアルゴリズムと、簡単なデモをご紹介します。 強化学習とは機械学習の手法のひとつ (画像はhttps://www.engadget.com/2016/03/12/watch-alphago-vs-lee-sedol-round-3-live-right-now/より) 「強化学習(Reinforcement Learning)」と呼ばれる学問分野をご存知でしょうか。 機械学習にはさまざまな分類方法がありますが、「教師付き学習(Supervised Learning)」「教師なし学習(Unsupervised Learning)」「強化学習」という3種類に分ける考え方があります。 この考え方では、強化学習は機械学習のひとつの大きな分野をなすということになります。 (画像は UCL Course on
ロボットから自動運転車、はては囲碁・将棋といったゲームまで、昨今多くの「AI」が世間をにぎわせています。 その中のキーワードとして、「強化学習」というものがあります。そうした意味では、数ある機械学習の手法の中で最も注目されている(そして誇張されている・・・)手法ともいえるかもしれません。 今回はその強化学習という手法について、基礎から最近目覚ましい精度を出しているDeep Q-learning(いわゆるドキュン、DQNです)まで、その発展の流れと仕組みについて解説をしていきたいと思います。 本記事の内容をベースに、ハンズオンイベントを開催しました(PyConJPのTalkの増補改訂版) Pythonではじめる強化学習 OpenAI Gym 体験ハンズオン 講義資料の方が図解が豊富なので、数式とかちょっと、という場合はこちらがおすすめです。 Tech-Circle #18 Pythonではじ
巷で話題のバンディットアルゴリズムを、 ネット上の素晴らしい資料を参考にしたり引用したりしながら、 おおまかなイメージがつかめるようにまとめていきます。 導入:タカシ君のお年玉 20XX年、元旦。 タカシ君は、この冬休みずっと、コインに念を送って表を出す練習に励んできました。 というのも、 コインが5種類(A,B,C,D,E)あるが、どうやらそれぞれ形が違うようで、表が出る確率が違う(が変化はしない) 「1回ごとにコインを1つ選んで、50回コイン投げていいよ」と両親に言われている 表が出た回数×1000円をお年玉としてもらえる ので、なんとかして表が出る回数を最大にしたいのです。 冗談はさておき、タカシ君は、どういう方針でコインを選ぶのがいいのでしょうか。 同じコインを投げ続ける?「コインB、君に決めた!」 全てのコインを均等に投げる?「平等にコインAを10回、Bを10回、...」 これま
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く