[B! 機械学習][強化学習] petite_blueのブックマーク

petite_blue id:petite_blue

機械学習と強化学習に関するpetite_blueのブックマーク (20)

GitHub - keiohta/tf2rl: TensorFlow2 Reinforcement Learning
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
petite_blue 2020/10/27
強化学習

機械学習

TensorFlow
リンク
AIの想像力が人間を超えるとき。深層強化学習のブレイクスルー、D3RLの衝撃
AIの想像力が人間を超えるとき。深層強化学習のブレイクスルー、D3RLの衝撃 2020.10.08 Updated by Ryo Shimizu on October 8, 2020, 11:13 am JST 「最近のAIがすごい」と言われてからもう6年ほどが経過した。なかでも人目を引いたのは、なんといっても2016年のAlpha Goだろう。最難関ゲームの一つと言われる囲碁において、人間のトップ棋士に対しAIが圧勝したのである。これは「深層強化学習」というAIだが、実際のところ、「深層強化学習」を実用的に利用した例はまだ少ない。多くのAIベンチャーやAIベンダーが扱う「AI」技術は、古典的な統計解析か、時折ニューラルネットを使っているくらいで、「深層学習」ではあっても「深層強化学習」とは完全に別物である。ラジオもコンピュータも同じ電気で動くものだが別物であるのと同じだ。深層強化学
petite_blue 2020/10/09
強化学習

機械学習
リンク
GoogleのDeepMindが囲碁のルールを自ら学習することでAlphaZeroを凌駕する強化学習手法「Muzero」を提案。
3つの要点 ✔️その１ DeepMindからAlphaZeroの進化版「MuZero」が登場 ✔️その２モデルベース強化学習によりルールを与えなくてもAlphaZeroに勝利 ✔️その３囲碁・チェス・将棋に加えてAtariでも同一モデルで最高性能を達成続きを読むには (3155文字画像6枚) AI-SCHOLARに登録いただく必要があります。 1分で無料で簡単登録するまたはログイン
petite_blue 2019/12/21
強化学習

deep learning

機械学習
リンク
深層強化学習アルゴリズムまとめ
はじめに深層強化学習の分野では日進月歩で新たなアルゴリズムが提案されています. それらを学ぶ上で基礎となるアルゴリズム(というより概念に近い？)はQ学習, SARSA, 方策勾配法, Actor-Criticの4つだと思われるので, これらを軸としてまとめてみたいと思います. 以下の4点はあらかじめご了承ください. コードは書いていません. 概念のみの説明です他のアルゴリズムの基礎となりうる重要な概念については詳しく書きました. その他については簡潔に書きました深層学習についてはある程度理解している読者を想定しています書いているうちに規模がどんどん大きくなってしまったので, どこかに必ず間違いや不足があります. 「この式がおかしい！」「このアルゴリズムも追加するべき！」などコメントがあればぜひお願いします全体像扱うアルゴリズムを相関図にしてみました(私のイメージです). まず,
petite_blue 2018/11/06
強化学習

機械学習
リンク
Pythonではじめる OpenAI Gymトレーニング
2. Agenda ● OpenAI Gymを体験しよう ○ OpenAIとOpenAI Gym ○ OpenAI Gymを動かしてみる ○ 簡単な「AI」を作ってみる ○ 「AI」の限界 ● 「AI」を成長させよう ○ 強化学習というアイデア ○ アイデアのモデル化と、最適化の方法 ○ より複雑なタスクへの挑戦 ● Deep Learningとの融合 ○ Deep Q-learningの登場 ○ Deep Q-learningにおける3つのトリック ○ Deep Q-learningの実装 ● おわりに 2
petite_blue 2018/07/08
機械学習

強化学習

deep learning

python
リンク
UCバークレーら、仮想キャラクタのアクロバットな動きをよりリアルに再現する強化学習を用いた手法「DeepMimic」発表
UCバークレーら、仮想キャラクタのアクロバットな動きをよりリアルに再現する強化学習を用いた手法「DeepMimic」発表 2018-04-12 カリフォルニア大学バークレー校とブリティッシュコロンビア大学の研究者らは、コンピューターアニメーションキャラクタのアクロバットな動きも、よりリアルなものにする強化学習を用いた手法「DeepMimic」を発表しました。論文：DeepMimic: Example-Guided Deep Reinforcement Learning of Physics-Based Character Skills 著者：Xue Bin Peng,Pieter Abbeel,Sergey Levine,Michiel van de Panne 提案手法は、強化学習フレームワークを用いて、ブレイクダンスや武道のようなアクロバットな動きもコンピュータアニメーションで自然な
petite_blue 2018/04/12
機械学習

強化学習
リンク
強化学習をバランス調整に活用。『逆転オセロニア』が目指す、ゲーム開発の近未来 – フルスイング – DeNA
AI（人工知能）が、人間の仕事を代替する。近年、そんなフレーズが各種メディアに登場するようになりました。今後10～20年で、今存在しているさまざまな仕事は自動化されると考えられています。そして、その波は“ゲーム開発”にも訪れているのです。 DeNAでは、オセロとトレーディングカードゲームの要素を組み合わせた対戦ゲームアプリ『逆転オセロニア』のキャラクターバランス調整を、AIによってサポートすべく研究を続けています。今回は、本プロジェクトを推進し研究・開発に“フルスイング”してきたエンジニアであるAIシステム部AI研究開発グループの奥村エルネスト純、甲野佑、田中一樹に、彼らが成し遂げようとしている未来について聞きました。「世界的に見ても前例がない領域」に挑むやりがい ――なぜ、オセロニアのバランス調整にAIを導入しようとしているのでしょうか？奥村：ゲームのバランス調整をより効率よく正確
petite_blue 2018/01/27
機械学習

強化学習
リンク
【強化学習】実装しながら学ぶA3C【CartPoleで棒立て：1ファイルで完結】 - Qiita
※2018年06月23日追記 PyTorchを使用した最新版の内容を次の書籍にまとめました。つくりながら学ぶ! 深層強化学習 ~PyTorchによる実践プログラミング~ 18年6月28日発売 2016年に発表された強化学習のアルゴリズム「A3C」を実装しながら、解説します。（エイ・スリー・シー）と呼ぶそうです。 A3Cは、アルファ碁ゼロをはじめ、最新の強化学習を学ぶうえで、避けては通れない重要なアルゴリズムです。世界一分かりやすいA3C、猫でもわかるA3Cの紹介を目指して、記事を書きます。 ※ 171115 tarutoさまにお気づきいただき、AgentクラスのAct関数を修正しました。概要 OpenAI GymのCartPoleを題材に、「A3C」の実装・解説をします。プログラムが1ファイルで完結し、学習・理解しやすいようにしています。本記事では、 A3Cとは（概要） A3C
petite_blue 2017/11/07
機械学習

強化学習
リンク
これから強化学習を勉強する人のための「強化学習アルゴリズム・マップ」と、実装例まとめ - Qiita
※2018年06月23日追記 PyTorchを使用した最新版の内容を次の書籍にまとめました。つくりながら学ぶ! 深層強化学習 ~PyTorchによる実践プログラミング~ 18年6月28日発売これから強化学習を勉強したい人に向けて、「どんなアルゴリズムがあるのか」、「どの順番で勉強すれば良いのか」を示した強化学習アルゴリズムの「学習マップ」を作成しました。さらに、各手法を実際にどう実装すれば良いのかを、簡単な例題を対象に実装しました。本記事では、ひとつずつ解説します。オレンジ枠の手法は、実装例を紹介します。 ※今回マップを作るにあたっては、以下の文献を参考にしました。 ●速習強化学習: 基礎理論とアルゴリズム（書籍） ●Deep Learning for Video Game Playing 強化学習とは強化学習は、画像識別のような教師あり学習や、クラスタリングのような教師なし
petite_blue 2017/11/07
強化学習

機械学習
リンク
強化学習事例集 by Team AI - Qiita
はじめに強化学習の時代が来ようとしています。 Team AIの研究会でも、現状ゲーム AIとロボティクスに偏りがちな事例を、もっと多くの産業に広げていきたいと日々議論しています。今日はそんな強化学習業界の発展に寄与すべく、事例集を日本語訳していきたいと思います。エンジニアの皆様のヒントになりましたら幸いです。元情報； http://umichrl.pbworks.com/w/page/7597597/Successes%20of%20Reinforcement%20Learning https://sites.ualberta.ca/~szepesva/RESEARCH/RLApplications.html (速習強化学習 p76で紹介されていました) 上記より、2008年以降の研究論文をご紹介します。 Adapting to Run-Time Changes in Polic
petite_blue 2017/10/26
強化学習

機械学習
リンク
AlphaGo Zeroの論文の要約 : ブログ
Alpha Go Zeroが自己学習のみで過去最強になったというニュースが出たのでその元論文を読み、要約をしました。まず感想を述べると、過去数千年にわたって蓄積してきた知識をAIが数時間で発見することに対する気持ち良さがありました。人間などクソ食らえと思っておりますので、こう言うニュースはとてもスッキリします。そして人間の発見していない打ち筋の発見にも感動しました。これこそがAIの真髄だと信じています。人間が見えていないものをAIが見つける、僕もいつかそんなことをしてみたいと思いながら生きています。あともう一つ重要だと思ったのは、とてもネットワーク構造および学習過程が簡素化されたことです。マシンパワーも過去に比べて非常に少なく済み、個人でもすぐに再現実験ができそうなくらいです。AIが強くなることと、構造および学習のsimplerが同時に達成できていることが本質的だと思います。一応、下記
petite_blue 2017/10/21
強化学習

機械学習

あとで読む
リンク
Gym
Gym is a standard API for reinforcement learning, and a diverse collection of reference environments# The Gym interface is simple, pythonic, and capable of representing general RL probl ems: import gym env = gym.make("LunarLander-v2", render_mode="human") observation, info = env.reset(seed=42) for _ in range(1000): action = policy(observation) # User-defined policy function observation, reward, ter
petite_blue 2017/08/15
強化学習

機械学習
リンク
33122
Google「DeepMind」、コンピュータが人型ベースでB地点にたどり着く最善の方法（柔軟な動き）を独学で生成する強化学習を用いたアプローチを提案した論文を発表 2017-07-11 GoogleのAIを研究する子会社「DeepMind」は、強化学習で人型含めシミュレートされた環境の中で複雑で柔軟な動きを生成するアプローチを提案した論文を公開しました。 Emergence of Locomotion Behaviours in Rich Environments（PDF）これら動きは、コンピュータが独学で最善の方法として考案した行動です。研究者は、エージェントに動きのセットと前進するインセンティブを与え、AからB地点にたどり着く最善の方法を生み出すための強化学習を仕込みます。コンピュータは、今ある動作を使って試行錯誤を繰り返し、さまざまな動き方を思いつく中で次々と最善へ近づけてい
petite_blue 2017/07/12
DeepMind

機械学習

強化学習
リンク
深層強化学習ライブラリChainerRL - Preferred Networks Research & Development
Chainerを使った深層強化学習ライブラリChainerRLを公開しました． https://github.com/pfnet/chainerrl PFNエンジニアの藤田です．社内でChainerを使って実装していた深層強化学習アルゴリズムを”ChainerRL”というライブラリとしてまとめて公開しました．RLはReinforcement Learning（強化学習）の略です．以下のような最近の深層強化学習アルゴリズムを共通のインタフェースで使えるよう実装してまとめています． Deep Q-Network (Mnih et al., 2015) Double DQN (Hasselt et al., 2016) Normalized Advantage Function (Gu et al., 2016) (Persistent) Advantage Learning (Bellemar
petite_blue 2017/02/21
Chainer

DQN

deep learning

機械学習

強化学習
リンク
A3Cという強化学習アルゴリズムで遊んでみた話
This document presents mathematical formulas for calculating gradients and updates in reinforcement learning. It defines a formula for calculating the gradient of a value function with respect to its parameters, a formula for calculating the gradient of a policy based on the reward and value, and a formula for calculating the gradient of a parameter vector that is a weighted combination of its pre
petite_blue 2016/05/20
機械学習

強化学習
リンク
Deep Q Network「DQN」やってみた - teemaxの日記
DQN？キャッチーな名前ですが"ドキュン"ではありません(笑)。 "Deep Q Network"の略です。深層学習 (Deep Learning) と強化学習の一種である Q Learning を組み合わせたもので、 Google に買収された DeepMind の研究者らによって発案されました。強化学習というと何らかのゲームに使うことが多い訳ですが、DQNの場合はAtari2600というゲーム機用のアーケードゲームでその性能を試しています。そして数多くのゲームで人間よりも高いスコアをたたき出しています。実際にDQNがゲームをプレイしている動画がこちらです。( muupanさんという方の動画 ) Deep Q-Network Plays Atari 2600 Pong - YouTube つい最近も Google が人工知能「DQN」を開発した、として話題になりましたね。 D
petite_blue 2016/03/17
deep q network

deep learning

機械学習

強化学習
リンク
分散深層強化学習でロボット制御 - Preferred Networks Research & Development
新入社員の松元です。はじめまして。 “分散深層強化学習”の技術デモを作成し、公開いたしました。ロボットカーが0から動作を学習していきます！まずはこの動画を御覧ください。以下で、動画の見どころと、使っている技術を紹介します。動画の見どころ Car 0(○の付いている車)が右折カーブの手前で減速する様子(右画面の白いバーのところが、ブレーキのところで赤くなっている。ニューラルネットはブレーキが最も多く報酬が得られると推測していることがわかる)。速い速度ほど報酬は大きいが、カーブを曲がりきれず壁にぶつかってしまうので学習が進むとカーブ手前でのみ減速するようになる。目の前に車がいるときは一時停止して、いなくなってから加速する。エチオピアには本当にこのような交差点があるらしい。ぎりぎりですれ違う2台。学習途中ではすれ違いきれずにぶつかって倒れてしまうこともある(早送りシーン中に人が写って
petite_blue 2015/06/10
機械学習

強化学習

Deep Learning
リンク
Reinforcement Learning: An Introduction
The MIT Press Cambridge, Massachusetts London, England
petite_blue 2015/01/08
Reinforcement Learning: An Introduction

強化学習

機械学習
リンク
Google Code Archive - Long-term storage for Google Code Project Hosting.
Code Archive Skip to content Google About Google Privacy Terms
petite_blue 2011/02/02
RL-Glue のページ

強化学習

機械学習
リンク
Sign in - Google Accounts
Not your computer? Use a private browsing window to sign in. Learn more
petite_blue 2011/02/02
さまざまなエージェントを接続できる標準API

機械学習

強化学習
リンク
1