[B! 強化学習] skypenguinsのブックマーク

skypenguins id:skypenguins

強化学習に関するskypenguinsのブックマーク (12)

Control as Inference (強化学習とベイズ統計)
東京大学松尾研究室強化学習サマースクール2020 第5回 https://deeplearning.jp/reinforcement_cource-2020s/Read less
skypenguins 2020/08/30
機械学習

統計

強化学習

ベイズ統計
リンク
これから強化学習を使いたい人向け、強化学習の基礎と論文紹介 - Qiita
実務でモデルフリー強化学習を活用しようとして勉強したことを書きますドコモの先進技術研究所1年目の勝見と申します。今回は先輩から誘われて、アドベントカレンダーの記事の12日目を担当することになりました。本来は現在行っているデータ分析周りの業務になにか絡めて書けると良いのですが、残念ながらまだオープンにできるようなネタはありませんので、私が業務での実タスクに応用しようと検討を行っている強化学習（モデルフリー）の初学者向けの記事を自身のためのまとめも兼ねて、学習の過程で個人的に面白いなと感じたポイントを織り交ぜながら書こうと思います。マルコフ決定過程 (Markov decision process) このあたりは多くの記事でも取り上げられているため今更感がありますが、強化学習をタスクに適用するために必要となる定式化について説明しておきます。強化学習では取り扱う問題を、エージェントが起こし
skypenguins 2019/12/13
強化学習

機械学習

論文
リンク
Using Deep Q-Learning in FIFA 18 to perfect the art of free-kicks
Free-kicks taken by the AI bot, trained through 1000 epochs of the Reinforcement Learning process.In my previous article, I presented an AI bot trained to play the game of FIFA using Supervised Learning technique. With this approach, the bot quickly learnt the basics of the game like passing and shooting. However, the training data required to improve it further quickly became cumbersome to gather
skypenguins 2018/10/16
deeplearning

強化学習

ゲーム
リンク
FizzBuzz Zero ―― 人類の知識なしでFizzBuzzをマスターする
for i in range(1, 101): if i % 15 == 0: print("FizzBuzz") elif i % 3 == 0: print("Fizz") elif i % 5 == 0: print("Buzz") else: print(i) プログラム問題としてあまりにも有名になってしまったので、今ではあらゆる言語のFizzBuzzがそろっています。面白いですね。深層学習で FizzBuzz この記事の読まれている大半の方は、FizzBuzzを書くのにあまり苦労しないでしょう。しかし、あなたが何かの拍子でプログラムの書き方を忘れてしまったらどうでしょう？心配する必要はありません。そういうときこそAIの出番です。最近は空前の人工知能ブームで、猫も杓子もDeep Learningです。実際、Deep LearningによるFizzBuzzは、いくつも先例
skypenguins 2018/05/11
機械学習

強化学習

深層学習

deeplearning

プログラミング
リンク
PythonとKerasを使ってAlphaZero AIを自作する | POSTD
自己対戦と深層学習でマシンにコネクトフォー（Connect4：四目並べ）の戦略を学習させましょう。この記事では次の3つの話をします。 AlphaZeroが人工知能（AI）への大きなステップである2つの理由 AlphaZeroの方法論のレプリカを作ってコネクト4のゲームをプレイさせる方法そのレプリカを改良して他のゲームをプラグインする方法 Alpha Go→Alpha Go Zero→AlphaZero 2016年3月、DeepmindのAlpha Go（アルファ碁）が、囲碁の18回の世界王者、李世乭（イー・セドル）との五番勝負で、2億人の見守る中、4-1で勝利しました。機械が超人的な囲碁の技を学習したのです。不可能だとか、少なくとも10年間は達成できないと思われていた偉業です。 Alpha Go　対　李世乭の第3局このことだけでも驚くべき功績ですが、DeepMindは、2017年10月、
skypenguins 2018/03/30
Keras

Python

AlphaGo

強化学習
リンク
Unity AI ― Q 学習を用いた強化学習 | Unity Blog
Unity AI に関するブログシリーズ第 2 回となる本記事では、前回に引き続きコンテクスチュアルバンディット問題を完全な強化学習問題へ拡張する方法を解説します。その一環として、学習された Q 関数（特定の環境下における特定のアクション実行の長期的価値を予測するもの）によって行動するエージェントの使用方法を示したデモもご提供します。この例では、簡単なグリッドと Q 関数の表のみを使用します。幸運なことに、このベーシックなコンセプトがほぼ全てのゲームに当てはまります。Q 学習のデモは、こちらのリンクからお試しにいただけます。以下本文では、Q 学習の仕組みに関する詳細なウォークスルーをお届けします。コンテクスチュアルバンディットに関する前回のまとめ強化学習を行う目的は、特定の環境内で、未来の報酬を最大化させるための行動を学習できるエージェントをトレーニングすることです。本シリーズ前回の記
skypenguins 2018/03/25
強化学習

unity
リンク
技術系専門書（機械学習）の翻訳体験から学んだこと - sotetsuk's tech blog
技術書（訳書）を出版社から初めて刊行したのですが、その過程で経験したことなどを共有することで誰かの役に立てて貰えれば、と言うのがこの記事の趣旨になります。最近では他にも、"CSの定番教科書「Open Data Structures」を日本にも届けたい！"というプロジェクトもあり、こうした草の根の技術書の翻訳活動がもう少し日本にあってもいいのではと個人的に思っています。理系専門書に邦訳が必要なのかどうか（英語で読めばいいでしょ論）は立場が別れるところだとは思いますが、私は基本的に上記プロジェクト内の次の一文と同じ立場です。そして、母国語でこのような入門書が読める、少なくともその選択肢があるのは望ましいことだと考えています。なお、この記事も前の記事に引き続き、2017年に書きかけだった記事の供養です（投稿は2018年の年始）。年末にやりたかったのですが、年始になってしまいました。。。ど
skypenguins 2018/02/07
機械学習

強化学習
リンク
速習強化学習を刊行しました - sotetsuk's tech blog
少し（というか結構）前になりますが、2017年9月に「速習強化学習 ―基礎理論とアルゴリズム―」という本を刊行しましたので、簡単に紹介します（Twitter, FBでは告知しましたがブログがまだでした）。 GoogleのAlpha Goによるプロ棋士打破は，人工知能がヒトを超えた学習を行った歴史的出来事として認識された。強化学習はここで重要な役割を果たしてているだけでなく，自動運転やロボット制御などの重要な分野への応用も知られ，いま世間の強い関心を集めている。その一方，日本語で強化学習を体系的に学べる教科書は多くはなく，代表的な教科書であるSutton and Barto (1998)とその訳書も出版から20年が経とうとしている。本書はトップ会議のチュートリアルで利用されたり，2010年の出版以降わずか数年で500弱の引用がされたりという事実からも窺えるように，入門書として広く読まれてい
skypenguins 2018/02/07
機械学習

強化学習
リンク
【強化学習初心者向け】シンプルな実装例で学ぶSARSA法およびモンテカルロ法【CartPoleで棒立て：1ファイルで完結】 - Qiita
【強化学習初心者向け】シンプルな実装例で学ぶSARSA法およびモンテカルロ法【CartPoleで棒立て：1ファイルで完結】Python 機械学習強化学習 ※2018年06月23日追記 PyTorchを使用した最新版の内容を次の書籍にまとめました。つくりながら学ぶ! 深層強化学習 ~PyTorchによる実践プログラミング~ 18年6月28日発売強化学習の代表的な手法である「SARSA法」と「モンテカルロ法」の、実装コード紹介と解説を行います学習する対象には、強化学習の「Hello World！」的存在である「CartPole」を使用します。概要強化学習の代表的な手法であるSARSA法、モンテカルロ法の2通りを実装・解説します。 ※ディープラーニングは使用しません。古典的？な強化学習です。・どちらも150行程度の短いプログラムです・外部の強化学習ライブラリなどを使用せず、自力で組ん
skypenguins 2018/01/09
機械学習

強化学習
リンク
強化学習入門～これから強化学習を学びたい人のための基礎知識～ - Platinum Data Blog by BrainPad
こんにちは。アナリティクスサービス本部の仲田です。本日は、「強化学習」について、その基礎的なアルゴリズムと、簡単なデモをご紹介します。強化学習とは機械学習の手法のひとつ (画像はhttps://www.engadget.com/2016/03/12/watch-alpha go-vs-lee-sedol-round-3-live-right-now/より) 「強化学習（Reinforcement Learning）」と呼ばれる学問分野をご存知でしょうか。機械学習にはさまざまな分類方法がありますが、「教師付き学習（Supervised Learning）」「教師なし学習（Unsupervised Learning）」「強化学習」という3種類に分ける考え方があります。この考え方では、強化学習は機械学習のひとつの大きな分野をなすということになります。 (画像は UCL Course on
skypenguins 2018/01/09
強化学習

機械学習
リンク
ゼロからDeepまで学ぶ強化学習 - Qiita
ロボットから自動運転車、はては囲碁・将棋といったゲームまで、昨今多くの「AI」が世間をにぎわせています。その中のキーワードとして、「強化学習」というものがあります。そうした意味では、数ある機械学習の手法の中で最も注目されている(そして誇張されている・・・)手法ともいえるかもしれません。今回はその強化学習という手法について、基礎から最近目覚ましい精度を出しているDeep Q-learning(いわゆるドキュン、DQNです)まで、その発展の流れと仕組みについて解説をしていきたいと思います。本記事の内容をベースに、ハンズオンイベントを開催しました(PyConJPのTalkの増補改訂版) Pythonではじめる強化学習 OpenAI Gym 体験ハンズオン講義資料の方が図解が豊富なので、数式とかちょっと、という場合はこちらがおすすめです。 Tech-Circle #18 Pythonではじ
skypenguins 2018/01/09
機械学習

DeepLearning

深層学習

強化学習
リンク
バンディットアルゴリズムことはじめ - Qiita
巷で話題のバンディットアルゴリズムを、ネット上の素晴らしい資料を参考にしたり引用したりしながら、おおまかなイメージがつかめるようにまとめていきます。導入：タカシ君のお年玉 20XX年、元旦。タカシ君は、この冬休みずっと、コインに念を送って表を出す練習に励んできました。というのも、コインが5種類(A,B,C,D,E)あるが、どうやらそれぞれ形が違うようで、表が出る確率が違う（が変化はしない）「1回ごとにコインを1つ選んで、50回コイン投げていいよ」と両親に言われている表が出た回数×1000円をお年玉としてもらえるので、なんとかして表が出る回数を最大にしたいのです。冗談はさておき、タカシ君は、どういう方針でコインを選ぶのがいいのでしょうか。同じコインを投げ続ける？「コインB、君に決めた！」全てのコインを均等に投げる？「平等にコインAを10回、Bを10回、...」これま
skypenguins 2018/01/09
機械学習

バンディット

強化学習
リンク
1