[B! rl] sh19910711のブックマーク

[強化学習] いつの間にか OpenAI Gym が終焉していた

前提強化学習で利用する環境Env（を集めたライブラリ）では、OpenAI Gymが有名でよく使われてきました。私もいくつか記事を書いたり、スクラップにまとめたりしてきました。上の記事でも取り上げたように、2021年7月にメンテナーが交代し、その後APIや利用できるEnvが頻繁に変更されるようになりました。変更が頻繁だったため、Gymと一緒に使う拙作のライブラリはだんだん更新が手間になって止まってしまいました。（すみません。）本題: Gym の終焉そしてつい先日以下の記事を読みました。私が書いたGymの記事への言及があり、残念ながら内容が古くなっているとのことでした。そろそろ重い腰を上げて確認するかとGymのページを見に行ったところ以下のような文言が表示されていました。引用: https://github.com/openai/gym 引用: https://www.gym

sh19910711 2024/05/22

"OpenAI Gym: 2021年7月にメンテナーが交代 + APIや利用できるEnvが頻繁に変更 / Gymのメンテナーを引き継いだ人（達）は、GymをforkしてGymnasiumというプロジェクトを立ち上げ" 2023

リンク

カードゲームの強化学習 - Qiita

はじめによく知られる碁の強化学習は「Alpha Go」があり、将棋やチェスにも対応した強化学習は「AlphaZero」とか「MuZero」がある。オセロAIもDeepLearning的立ち位置からやられる事がある。（評価関数的AIの場合もある）ポーカー（テキサスホールデム）の強化学習は「Pluribus」、麻雀の強化学習は「Suphx」がある。一方、コンピュータゲームではAtari(70,80年代のビデオゲーム機)のゲームをやるモデルに「Agent57」、「MuZero」、「R2D2」等がある。また、マリオの強化学習としてDQNのチュートリアルコードがあり、比較的よくやられている。その他、強化学習がやられるゲームとしては動画からの学習の題材としてMinecraft、starcraft2の「AlphaStar」などがあるらしい。しかし、TCG（トレーディングカードゲーム）の強化学習

sh19910711 2024/05/13

"マリオだと入力データが(4,84,84)なのでstrideで画像サイズを減らして演算量を減らすメリットがある / 6種類のカードから成る簡単な環境であればDQN学習でもカードゲームのプレイが出来ているように見える" 2023

リンク

強化学習でスーパーマリオをクリアする - Qiita

https://vigne-cla.com/3-4/ の記事によると人口知能の学習に使えるスーパーマリオの環境は Kautenjaさんが作成したgym_super_mario_brosと ppaquetteさんが作成したppaquette_gym_super_mario がある。ここではppaquette_gym_super_marioを使用している https://qiita.com/tsunaki/it ems/ec2556dc147c6d263b9d のコードを使用させていただき、スーパーマリオの強化学習を進めていきます。（tsunaki様、こちらのページありがとうございます）基本情報環境はgymをベースにしている。 gymの情報： https://github.com/openai/gym/blob/master/README.rst 画面データはもともと256x224でre

sh19910711 2024/05/09

"ppaquette_gym_super_mario: 環境はgymをベース + 画面を縦13個、横16個のtileという単位に直して処理している / 試行ごとにランダムの割合epsを1から少しずつ減らしていく / 試行は2000回 + epsが0.5くらいのときにめでたくゴール" 2019

リンク

感想「深層強化学習による東方AI」 – @knok blog

能登さんが発行された技術系同人誌、「深層強化学習による東方AI」のダウンロード版を入手したので読みました。BoothとGumroadで販売されているおり、特に理由はありませんがGumroadで購入しました。第13回博麗神社例大祭で頒布した『深層強化学習による東方AI』のダウンロード版をBooth https://t.co/ZysBlu7LY4 およびGumroad https://t.co/HtgRa44sr6 にて販売しています． pic.twitter.com/7rDT2qG9uq — 何もわからん (@ntddk) 2016年5月8日東方紺珠伝というシューティングゲームを、深層機械学習によってクリアさせようというものです。この種の話でまず思い浮かぶのが、八重樫さんによるvArashiです。Linux Conference 2002にて発表された資料(PDF)もあります。今にな

sh19910711 2024/05/09

"大昔のログインで実際にシューティングプレイヤーへアイトラッキングデバイスを装着させた記事があった / 不慣れなプレイヤーは主に自機を中心に見ているが、上級プレイヤーは自機の少し先を見ている傾向" 2016

リンク

【Unity ML-Agents】 Self-Play Reinforcement Learningで対戦ゲームのAIを作ってみた - Qiita

【Unity ML-Agents】 Self-Play Reinforcement Learningで対戦ゲームのAIを作ってみたUnity強化学習ReinforcementLearningML-Agents はじめに Atari 2600 Gamesの攻略を発端として有名となった強化学習ですが，ここ数年でプレイヤーが複数人いるゲームのための強化学習の研究も盛んに行われています．Self-Play Reinforcement Learning (Self-Play RL) はマルチプレイのゲームの学習にしばしば用いられる学習方法であり，囲碁やDota 2のAI開発に使われたことで注目を浴びました．今回は，Unityによる自作の対戦ゲームのAIをSelf-Play RLによって作成してみようと思います． Self-Play RLはエージェント (プレイヤ) が複数人いるゲームの戦略を学習

sh19910711 2024/05/06

"Self-Play RL: 自身の戦略のコピーを作成し，それを相手として学習をすすめる / Firoiu: 大乱闘スマッシュブラザーズDXにおいてトップランカーに匹敵" arXiv:1702.06230 2019

リンク

TensorFlowでDQN －箱庭の人工知能虫ー - Qiita

ChainerでやってみるDeep Q Learning - 立ち上げ編で、見た目まさに人工知能っぽいことをやっていたので真似てやってみることに。とはいえwxPythonとか使ったことないし、そのまんま真似ると難しそうなので、より簡単な感じにしました。まぁ遊びですし。毎度おなじみ、あまり専門的なことは良く分からず雰囲気で書いているので、大幅に勘違いしている箇所があるかもしれません。気になった点は指摘いただけると幸いです。目標箱の中にリンゴ（に見立てた点）を多数配置。そこに人工知能的虫を配置。虫は上下左右および移動しないことを選択できる。リンゴを食べる事が報酬。設計概要基本的には前回作ったものをベースに考える。動きまわることで報酬を得て行く過程をディープラーニングで実装する。ビジュアル的な表示が必要なので、wxPythonより簡単に使えそうなmatplotlibを使って

sh19910711 2024/05/02

"動きまわることで報酬を得て行く過程をディープラーニングで実装する / 箱の中にリンゴ（に見立てた点）を多数配置 + 上下左右および移動しないことを選択 + リンゴを食べる事が報酬" 2016

リンク

ゼロから創る tensorflow + reinforcement learningを使ったディープラーニングもどき - コンピュータ将棋 Qhapaq

注：今回の記事は完全にプログラマ向けの解説記事ですソースコードの閲覧、ダウンロードは此方からどうぞ GitHub - qhapaq-49/tf_reinforcement: tensorflowを使った簡単(300行弱)なreinforcement learning 【今回作りたいもの】囲碁やポーカーのAIで度々注目されているディープラーニングを使った強化学習。時代の先端を走るゲーム AI開発者的には是非覚えておきたいスキルの一つです。といっても、強化学習の動作原理自体は下記の図のようにシンプルなものです。本稿では下記図の流れを一通り搭載したスタンドアロンで動く強化学習ルーチンを紹介します（上述のgithubのコードを見ながら読まれることをオススメします）。【本稿で扱うゲームのルール】本稿ではニューラルネットで動く競りゲームのAIを作ります。競りゲームとは・初期所持金１０のプレイヤ

sh19910711 2024/04/29

"教師データ: ランダムムーブの対局 + 勝った方の手を良い手としてその手の採択率を上げる / 記事は沢山あるのですが、その多くはgymなどの洗練されすぎたパッケージを使っていて" 2017

リンク

ML-Agentsで模倣学習（GAIL）を取り入れた強化学習を行う - Qiita

要約コンセプト：報酬がスパースな環境だとエージェントが報酬に辿り着けず、学習が進まない・・ので模倣学習で人間が手本を見せる UnityのML-Agentsで強化学習＋模倣学習（GAIL）をする手順の紹介はじめに Unityでは、ML-Agentsというライブラリを使うことで機械学習を行うことができます。ML-Agentsは特に強化学習（Reinforcement learning）を容易に行うことが可能であり、Unityエディタ上で容易に環境を構築、スクリプトで報酬の設定等を行うこともできます。ですが、ゲームにおいて強化学習でうまく挙動を学習させることが難しい場合があります。強化学習とその課題強化学習は、エージェントの一連の行動の結果として報酬を与えることで学習が進行します。しかし、報酬がスパースな（少ない）環境では、エージェントが報酬となる行動に辿り着くことが難しいため、エージ

sh19910711 2024/04/28

"人間が報酬にたどり着くような行動を模倣学習でエージェントに学習させる / ML-Agentsでは現在BCとGAILの2種類の模倣学習をサポート / GAIL: デモンストレーションの数が少ない場合でも効果的 + 事前学習が可能" 2019

リンク

【強化学習】【基本編】1.MDPとベルマン方程式 - Qiita

強化学習が大好きなので記事を書いてみることにしました。お手やわやわにお願いします。目次 0.はじめに 1.強化学習の問題設定 2.マルコフ決定過程 3.ベルマン方程式 4.おわりに 0.はじめにこんにちは、強化学習大好きマンのかんといいます。強化学習を勉強する上で一番辛いのは、数学的なややこしさだと個人的に思っていて特に序盤で詰まって諦めることが多いのかなと思います。実際自分がそうで、序盤の意味がわからなさすぎて半年くらい放置してました。強化学習は数学がとても難しいと言われていて、自分も式の意味レベルくらいの理解で厳密な数学的理解はできていないところもあります。それでも強化学習は本当に面白い分野だと思っているので布教したくて記事を書こうと思いました。できるだけ具体例をまじえて勉強中の人はもちろん強化学習について何も知らないという人でもわかるよう書くつもりです。間違いやもっとわか

sh19910711 2024/04/26

"マルコフ性: 行動を決定する際、考慮するのは今いる状態sのみ + 経験してきた状態やしてきた行動は考慮しない / 方策がπ(a|s)と書かれている通り今いる状態sしか考慮していません" 2021

リンク

自己対戦で強化学習する三目並べ AI をPyTorchで実装 - Qiita

PyTorch の社内勉強会の題材にしたいと思い立ち、畳み込みニューラルネットワーク（Convolutional Neural Network, CNN）を用いた自己対戦型強化学習の三目並べ AI を実装したので公開します。見通しの良いシンプルな実装を目指しました。結局、それなりのコード量になってしまいましたが。動作環境 Google Colaboratory の CPUランタイムにて動作を確認しました。概略おおまかな処理フローは次図の通りです。盤面情報を受け取った先攻方策と後攻方策は、○×を書き込む場所を返します。この先攻方策と後攻方策に AI を実装し自己対戦させます。盤面情報は、空白マスをゼロ、先攻 ○ を+1、後攻 × を-1とした形状 (H,W)=(3,3) の二次元配列とします。盤面座標は、場合により二次元座標と1次元に展開したフラット座標を使い分けます。三目並べの

sh19910711 2024/04/25

"見通しの良いシンプルな実装を目指しました。結局、それなりのコード量になってしまいました / 盤面情報を Pandas の DataFrame 形式に変換し Notebook の組み込み関数 display関数にて表示、更新 / handle = display(df, display_id=True)" 2023

リンク

ICML'17における強化学習 - sotetsuk's tech blog

この記事は2017年に書きかけのままだったブログ記事の供養です。今2018年年始なので、NIPS参加報告も目立つ中、4ヶ月遅れくらいですが書きかけだったICML2017の参加録をひとまず投稿しておきます。ホットトピックモデルベース深層強化学習ソフト最適階層性（オプション）（報酬情報なしでの）系統立った探索一貫学習 (end-to-end learning) 学習時と異なる環境への汎化（transfer/zero-shot）実用的な探索（安全・公平）ヒトによる教示方策オフ型学習でのバイアス・バリアンス個人的に面白かった発表・トピック5選チュートリアルソフト最適カテゴリカルDQN ベータ方策 PVFによるオプションの発見総括 [PR] 速習強化学習 8月上旬にシドニーで行われたICML2017に参加してきました私自身は自然言語生成のワークショップで発表をしてき

sh19910711 2024/04/25

"モデルフリー: DQNやA3C + 環境のモデルをブラックボックス的に扱う / 強化学習の文脈では、より階層が上の方策（のようなもの）をオプションと呼ぶことがあり / 探索のアプローチは「不確かなときは楽観的に」の原則" 2018

リンク

強化学習 keras-rl2からstable-baselins3への乗り換え - Qiita

はじめに久々にkeras-rl2を使用して強化学習を行ったのですが昔作成したプログラムが動かなくなっていました。tensorflowのバージョンアップが原因のようです。とりあえず動くようには修正したのですが、keras-rl2は2年くらいメンテナンスされておらず、これを機にstable baselinesに移行することにしました。私の環境は下記のとおりです。 macOS: 14.0（23A344） Python: 3.11.5 gym: 0.26.2 tensorflow: 2.14.0 keras: 2.14.0 keras-rl2: 1.0.5 1. 確認のために使用したプログラム下記で使用した拙作のプログラムを使用します。少し変更しているので再掲します。環境 import time import numpy as np import gym class MovingEnv(g

sh19910711 2024/04/21

"keras-rl2: 2年くらいメンテナンスされておらず、これを機にstable baselinesに移行 / 使用しているフレームワークを変更するのは勇気がいる / stable-baselines3: トレーニング時間がkeras-rl2よりだいぶ短い" 2023

リンク

Stable Baselines と Raspberry Pi によるホッケーロボットの強化学習｜npaka

「AI・人工知能EXPO 2020 【秋】」の「ギリア」ブースにて、「Stable Baselines」と「Raspberry Pi」によるホッケーロボットの強化学習を展示しました。 Webカメラの映像を入力として使って、「Raspberry Pi」上で「Stable Baselines」による推論を行い、ロボットアームの操作して、ホッケーロボットの対戦を実現させています。今回は、「Stable Baselines」と「Raspberry Pi」によるホッケーロボットの強化学習の作成の流れを紹介します。【ステップ1】ロボットアームとホッケー台の選定はじめに、ロボットアームをいろいろ試してみて、KHRシリーズで有名な近藤科学の「KXR-A5」を選びましました。ホッケーするのに十分なサーボ速度、長時間動く耐久性、1台38,000円という値段の安さが決め手になりました。

sh19910711 2024/04/21

"Webカメラの映像を入力として使って、「Raspberry Pi」上で「Stable Baselines」による推論 / KXR-A5: ホッケーするのに十分なサーボ速度、長時間動く耐久性、1台38,000円 / 模倣学習: 「人間の操作ログ」に近いほど報酬を与える" 2021

リンク

強化学習：簡単な例で状態価値関数の値を求める - IT研究メモ

流行りに便乗して、機械学習やAIの勉強を始めてみました。なかでも、強化学習は、伝統的なAIの世界（プランニング等々）と機械学習の融合のようで面白くいろいろと探求のしがいがありそうです。とりかかりとしてこの本を読み始めています。強くなるロボティック・ゲームプレイヤーの作り方プレミアムブックス版 ~実践で学ぶ強化学習~ 作者: 八谷大岳,杉山将出版社/メーカー: マイナビ出版発売日: 2016/06/30メディア: 単行本この商品を含むブログ (2件) を見る 2008年の本なのでDQNなどはでていませんが、歴史的背景（「最適制御理論」最適化の観点から制御というものを考える、等々）から、基本的な技法の定式や実装イメージ（擬似コード的なものがある）まで網羅的に丁寧に記述されていて、大変勉強になります。ただ読んでいるだけだとあまりわかった気になれないので、ところどころで具体的に値を計算して

sh19910711 2024/04/20

"ゲームプレイヤーの作り方: 2008年の本なのでDQNなどはでていませんが、歴史的背景から、基本的な技法の定式や実装イメージまで網羅 / 割引: 遠い将来に得られる報酬は、直近に得られる報酬より価値が低い" 2016

リンク

[論文解説] MAML: Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks - Qiita

[論文解説] MAML: Model-Agnostic Meta-Learning for Fast Adaptation of Deep NetworksMeta-Learning 以下の論文の解説(まとめ)になります． Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks この論文は，Chelsea Finnが出した論文でICML 2017に採択されています．Meta-Learningの汎用性を大きく改善した，ターニングポイントとなる手法を提案していて非常に面白く，また論文の優位性を適切に説明した日本語解説がなかったため，今回紹介させていただきました．この論文で提案しているモデルは，MAML(Model-Agnostic Meta-Learning)と呼ばれる手法になります．記事中の図は，特に記載がない限り

sh19910711 2024/04/18

"Meta-Learning: 様々なタスクで学習することで未知のタスクにも少しのデータ・学習ステップで適応できるようなモデルを見つける / MAML: 微分可能である以外，モデルや損失関数の形式を仮定しない" arXiv:1703.03400 2019

リンク

最適制御と強化学習のつながりを理解する - Qiita

はじめに近年の深層学習のブームに乗っかる形で、DQNに代表されるような深層強化学習手法が話題になっています。下の、DQN（もしくはAtariをプレイするAIの映像）などを見て、強化学習すごそう！なんか面白そう！と思って勉強を始めた方も多いのではないでしょうか？ちなみに、自分もその一人であることに間違い有りません。しかし、強化学習の反対側に制御工学の理論が見えることは実はあまり知られていなかったり、制御工学を勉強していても、強化学習が制御工学と関係があると知らなかったりすることがあると思います。もし、そのつながりを知り、両者の違い、良さをそれぞれ知れれば、今まで見てきたものがもっと広い視野で見えるようになることは間違い有りません。そこで、このQiita制御工学アドベントカレンダー2019 22日目の投稿は、制御工学の分野の１手法である最適制御と強化学習のつながりを解説します。本

sh19910711 2024/04/18

"制御工学を勉強していても、強化学習が制御工学と関係があると知らなかったり / 両者の違い良さをそれぞれ知れれば ~ もっと広い視野で見え / 強化学習はモデルが未知という状態からデータを得ることで方策を決定" 2019

リンク

第4回今更だけど基礎から強化学習を勉強する連続行動空間編 - Qiita

今までは行動空間(アクション)は離散値を扱っていましたが、今回は連続値を扱いたいと思います。第3回　価値推定編(TD法、モンテカルロ法、GAE) 第5回　TRPO編(IS、KL距離、ヘシアン、共役勾配法) ※ネット上の情報をかき集めて自分なりに実装しているので正確ではない可能性がある点はご注意ください ※ライブラリはTensowflow2.0(+Keras)を使っています。 ※2021/5/15 分散に関して大きな間違いがあったのでそれに関する内容を最後に追記していますコード全体本記事で作成したコードは以下です。 Google Colaboratory 2021/5/15 修正後のGoogle Colaboratory 環境(MyCartpole) Cartpole-v0を使いますが今回は連続行動空間を扱いため少し手を加えます。本当はPendulum-v0を使いたかったのですが学習難易

sh19910711 2024/04/18

"本当はPendulum-v0を使いたかったのですが学習難易度が高く、もう少し難易度を下げた環境を用意 / 最初にはまったのですが、確率と確率密度は違うものです + 確率密度は1以上の値を取ります" 2021

リンク

今さら聞けない強化学習（1）：状態価値関数とBellman方程式 - Qiita

はじめに強化学習に対する参考書を読み進めて、深層強化学習のコードをgithubで落として一部改変して使ったりしています。しかし、肝心の理論に関するところが追いついていけません。思うに、参考書を進めるうちになんとなくわかった気になったり、飛ばしたりするうちに不理解が蓄積していっているんだと思います。そのため、強化学習の基礎の基礎から、もう少し整理する必要があると思いました。シリーズものにして少しずつまとめていけたらと思います。間違いや不明瞭なところなどありましたらどんどんご指摘いただけるとありがたいです。参考書籍 Richard S. Sutton and Andrew G. Batro 著「強化学習」第1版三上貞芳・皆川雅章訳、森北出版株式会社現状価値関数、方策、価値最適化、方策評価、Q関数など、なんとなくわかっているが、やはりなんとなくしかわかっていない。。今回やったこと

sh19910711 2024/04/18

"ある時刻における価値関数はその先の時刻における価値関数の漸化式 / Bellman方程式: 直近の報酬に1ステップ先の価値関数を足したもの + 方策および遷移確率で未来のとりうる値は枝分かれするのでその期待値をとる" 2018

リンク

【強化学習】DreamerV3を解説・実装 - Qiita

この記事は自作している強化学習フレームワークの解説記事です。前：Dreamer2 DreamerV3の概要 DreamerV3は、極めて難しいタスクとして知られる Minecraft のダイヤモンド収集タスクを初めてゼロから解いたアルゴリズムとして話題になりました。論文での内容としては大きく以下となります。出来るだけパラメータを固定し幅広い環境で好成績を収めた Minecraftのダイヤモンド収集タスクが実行可能な初めてのアルゴリズムモデルが大きいほど性能が良くなる事実を発見した参考・Mastering Diverse Domains through World Models(論文) ・コード(github) ・Minecraftでダイヤモンド初収集！世界モデル最新手法 DreamerV3 を解説【無料記事】さまざまな環境への適応とMinecraftのタスク以下の図は様々な

sh19910711 2024/04/17

"DreamerV3: Minecraftのダイヤモンド収集タスクが実行可能 / V2では1エピソードにDummyステップを挿入して同じ長さにし、バッチ長毎に学習 / V3ではエピソードをまたいでバッチを作成 + 区切りではRNNの隠れ状態を初期化"

リンク

【Unreal Engine】強化学習を行う方法を調べてみた - Qiita

目次 1. Unreal Engine上で強化学習を行いたい理由 2. 各種手法の比較 2-1. 内部実行系の手法以下の４つの方法について紹介します。・Python Editor Script Plugin ・UneralEnginePython ・Python Foundation Packages ・Neural Network Inference 2-2. 外部通信系の手法以下の４つの方法について紹介します。・Mind maker ・UE4ML ・ML Adapter ・Learning Agent 3. 結局何を使えばいいのか ※記事中のUEはUnreal Engineの略です。 1. Unreal Engine上で強化学習を行いたい理由強化学習は、機械学習の一分野であり、エージェントが環境と相互作用しながら、試行錯誤を通じて最適な行動を学習する手法です。ゲームエンジンと

sh19910711 2024/04/17

"Python Editor Script Plugin: UE5から標準で搭載 + Pythonをゲーム内ターミナル，テキストファイル，BluePrintから実行 / MindMaker: UE上で取得したObservationsとRewardの値を外部の実行ファイル(.EXE)へ送信し，そこからActionを受け取る" 2023

リンク

はてなブックマーク

タグ

関連タグで絞り込む (16)

rlに関するsh19910711のブックマーク (34)

お知らせ

今週のはてなブックマーク数ランキング（2024年5月第4週）

今週のはてなブックマーク数ランキング（2024年5月第3週）

今週のはてなブックマーク数ランキング（2024年5月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス