[B! *algorithm][rl] sh19910711のブックマーク

スイカゲームを強化学習で攻略したい（環境構築編） - ABEJA Tech Blog

はじめにハードウェアの準備 Arduino の準備 Switch -> PC 環境の実装 stepメソッド状態の遷移報酬を計算する終了判定 reset メソッドゲームのリトライ自動プレイのテストはじめに ABEJAでデータサイエンティストをしている清田です。今回は強化学習で何かゲームの学習をやってみたいと考え、その題材としてスイカゲームを扱えるようにしました。「強化学習で攻略したい」と銘打っているのですが、この記事で扱うのはその準備までです。スイカゲームは Nintendo Switch （以下 Switch）用ゲームとして発売された落ち物パズルゲームです。箱の中に果物を落としていき、同じ種類の果物同士を接触させると合わさって一段階上の果物に変化します。より上位の果物を作るほど高い点数が得られます。箱から果物が飛び出してしまうとゲームオーバーです。2048 パズル + 落

sh19910711 2025/09/01

2024 / "Switch に Aruduino をNintendo Switch Pro コントローラー（プロコン）として認識させる / シリアル出力を Switch への出力に変換するやつ / 映像出力をキャプチャーボード（AverMedia 2Plus）を用いてPCに出力"

リンク

Deep Q-Network　論文輪読会

Deep-Q Networkに関するNatureの論文"Human-level control through deep reinforcement learning"を社内論文輪読会で読みました

sh19910711 2025/05/20

2016 / "Q,Vがわかれば、ある状態でどんな行動が最良なのかがわかる + でもQ,Vは自明ではない + Q,Vをなんとかしてもとめるのが強化学習 / TD学習: モンテカルロ法+DP"

リンク

強化学習のマンカラ環境を作った話 - マルチエージェントRLライブラリ概観

初めにこの記事は強化学習アドベントカレンダー 2021の記事として書かれたものです．初めまして，qqhann です．筑波大で修士をしており，修了の瀬戸際です．強化学習若手の会を知ったのは今年の初め頃だったと思います．Slack コミュニティに参加し，勉強会に参加してたまに質問させていただいたり，共有された記事を読んだりして，いつもためになっています．最近では，ゼロから作る Deep Learning 4 のオープンレビューをそこで知り，通読させていただきました．レビューするつもりで文章を読むと集中力が違うからか，理解も進むように感じますね．強化学習若手の会にせっかく参加しているので，そこでもいつまでも読み専門というのも良くないなと思い，記事を書くことにしました．初めての Zenn 記事でもあります．今年の前半に，強化学習を動かせるマンカラ環境を作成し，公開しました．当時は Ope

sh19910711 2025/05/17

2021 / "EFG: 全ての状態は木のノード + 行動をすることで枝分かれ + 探索による古典的アルゴリズムと相性がいい / OpenSpiel: EFG のパラダイムに則ったライブラリ"

リンク

Deep Reinforcement Learning: Pong from Pixels - Reinforcement Learning（強化学習）勉強メモ - higepon blog

http://karpathy.github.io/2016/05/31/rl/ 入門から実践までカバーしていて大変よい。日本語訳は https://postd.cc/deep-reinforcement-learning-pong-from-pixels-1/ にある。 Actions は Pong のゲームのバーを Up or Down する。 Reward はボールを相手のバーの向こうに飛ばせたら +1、自分がミスしたら -1。それ以外は 0 とする。入力は 210x160x3 の image frame をプリプロセスしたもの。（前後のフレームの差にするとか） Agent は入力とRewardしか知らない。ゲームのルールやコツを知らない。 Policy Network 2層のNN。bias なし。 1層目がゲームの状況（ボールが上の方にあるとか、バーが真ん中にいるとか） 2層目が

sh19910711 2025/05/17

2018 / "Policy Gradient: Label y が分からない > モデルからサンプリングする + 現時点では正解かどうかはわからない / 分からないなら、正解がわかるまでまとう"

リンク

【強化学習】Experience Replay の研究の傾向とその考察

この記事は強化学習 Advent Calendar 2021の12/11の記事です。 0. はじめに強化学習は（一般的には）学習に必要なデータをプログラム自身が能動的に探索する必要があります。そのため、深層学習のネットワークの大きさや形状だけでなく、探索・学習の方法などロジック全体が重要です。気をつけるべき点や工夫できる点が多岐に渡るため、非常に難しいと同時にとてもおもしろいろ感じています。この記事では、私が興味を持ってライブラリを開発したり、定期的に（？）記事を書いたりしているExperience Replay (経験再生) について、個人的に感じている近年の研究のポイントについて書こうと思います。 1. Experience Replay研究の着目点強化学習（のoff-policyな手法）では、遷移（一般には(s_t, a_t, r_t, s_{t+1}, d_t)の組）をRe

sh19910711 2025/05/15

2021 / "Experience Replay: 遷移をReplay Bufferに保存しておき、後から『ランダム』に取り出してニューラルネットワーク等のポリシーを学習させることで、サンプル効率を高める"

リンク

Connect Fourをちゃんと強化学習できた話 - threecourse’s blog

アルファ碁ゼロの手法で、Connect FourというゲームのAIを強化学習で作成させてみました。 Connect Fourは、「重力付き四目並べ」のようなゲームです。（四目並べ - Wikipedia）そこまで探索空間が大きすぎず、またソルバーもあるため、強化学習が正しくできるかのテスト用としては妥当なゲームでしょう。なお、正しく打てば先手必勝です。参考文献の「Alpha Go Zeroの手法でリバーシの強化学習をやってみる」のコードをforkしたものを元に作成しました。 Connect Four用に直し、自分の好みで構造を整理しています。コードは以下にアップロードしました。細かい工夫がたくさんあり複雑な割には分かりやすくなったはず・・ github.com 学習結果環境： OS: Ubuntu 18.04, CPU: Core i9-9900K, RAM: 32GB, GPU:

sh19910711 2025/05/11

2020 / "Connect Four: 「重力付き四目並べ」のようなゲーム / 自己対戦ワーカーと学習ワーカーを作成し、それぞれのプロセスを常に動かしておく / 生成された学習データをウォッチし、十分に溜まっていればモデルの学習"

リンク

逆強化学習を理解するための強化学習の基礎 - Qiita

Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 1. はじめに逆強化学習の手法についてはこちらを御覧ください。本記事では逆強化学習の手法については解説していません。逆強化学習は、エキスパートの行動から報酬を推定する手法です。例として下図のようなことを実現することが可能になります。 (K.Kitani, et al., 2012, Activity Forecasting, ECCV) この例では、逆強化学習によって人の行動の報酬を推定し、経路予測をしています。一般的に、強化学習ではエージェントが環境から報酬を得ることで最適な行動を学習します。エージェントは環境に行動という形で働

sh19910711 2025/04/23

2018 / "強化学習: 報酬をはっきりと定義することが難しい / 逆強化学習では、エキスパートの行動から報酬を推定 / 「上手な運転」自体は優秀なドライバーの運転を記録することでその行動履歴を知ることができ"

リンク

【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representations

sh19910711 2025/04/20

2021 / "Self-Predictive Representations (SPR): Kステップ後の表現を予測できるように学習した状態表現 + ステップごとのCosine Similarity Loss + データ拡張しなくてもSOTA"

リンク

これから強化学習を勉強する人のための「強化学習アルゴリズム・マップ」と、実装例まとめ - Qiita

Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? ※2018年06月23日追記 PyTorchを使用した最新版の内容を次の書籍にまとめました。つくりながら学ぶ! 深層強化学習 ~PyTorchによる実践プログラミング~ 18年6月28日発売これから強化学習を勉強したい人に向けて、「どんなアルゴリズムがあるのか」、「どの順番で勉強すれば良いのか」を示した強化学習アルゴリズムの「学習マップ」を作成しました。さらに、各手法を実際にどう実装すれば良いのかを、簡単な例題を対象に実装しました。本記事では、ひとつずつ解説します。オレンジ枠の手法は、実装例を紹介します。 ※今回マップを作るに

sh19910711 2025/02/26

2017 / "強化学習: ゴールはあるけれど、そこにいたる詳細な制御手法は分からないときに、ゴールできたかどうかをベースに、制御手法を構築する学習手法 / 「何かの制御」や「対戦型ゲームのアルゴリズム」に使用"

リンク

【強化学習】好奇心による探索RNDを改良したSNDを解説・実装してみた - Qiita

Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? この記事は自作している強化学習フレームワークの解説記事です。はじめにふと以下のAtariゲームのベンチマークを見ていたら Montezuma's Revenge でかなり高いスコアを出していたSND-Vというアルゴリズムがあったので見てみました。（Go-Exploreっていうのも興味がある）どうやらこれはAgent57でも使われていたRNDという手法を改良したアルゴリズムのようです。 SND論文: https://arxiv.org/abs/2302.11563 2023年2月にv1でv4が2024年6月と新しめの論文ですね。 S

sh19910711 2024/10/13

"強化学習の課題として報酬が疎（全く手に入らない）環境では学習が進まない / エージェントに内発的動機付けを足して探索を促そうという試み"

リンク

A3Cでテトリスを強化学習させてみた (失敗例その1) - Qiita

Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 強化学習が流行っている昨今、自分も何か勉強せねばと思い、テトリスを強化学習で解かせてみることにしました。強化学習というと、少し前に流行ったDQN、その後続いた研究成果の集大成であるA3Cの2種類が今まず学ぶべきものだろうということで、その2つを試しています。ただ、DQNではお話にならないくらい性能が出なかったのでわざわざ記事にはせず、思い出の中にしまいこみました。一方、A3Cの方は多少「それっぽい」挙動を示し始めています。タイトルに「失敗例」としている通り、全然満足なレベルには到達していません。それでも、うちの妻曰く「何か考えている

sh19910711 2024/10/13

"妻曰く「何か考えている様子は見られる」と一定の評価 / Optimizer=Adamが多くのケースで最強というのはよく知られています。強化学習の場合でも、同じく非常によい性能を持つ" '17

リンク

【深層強化学習】Dueling Network 実装・解説

Keras + Tensorflow　で Dueling Network + DDQN　を実装しました。全体のコードをGitHubにあげておきます。 https://github.com/omurammm/rl_implementation Dueling Networkとは論文：https://arxiv.org/pdf/1511.06581.pdf こちらの記事で詳しく説明してくださっているので参考にしてください普通のQ-networkは図（上）のように、状態を入力として受け取り、 SeaquentialなNetworkを通して行動価値関数Q(s,a)を予測する。それに対しDueling-networkでは図（下）のように、状態を入力として受け取り、途中で状態価値関数V(s)とAdvantage( A(s,a) = Q(s,a) - V(s) )の二つの流れに別れた後、最後に足

sh19910711 2024/10/12

"Dueling Network: 途中で状態価値関数V(s)とAdvantage( A(s,a) = Q(s,a) - V(s) )の二つの流れに別れた後、最後に足し合わせることで、行動価値関数Q(s,a)を予測"

リンク

Neural Architecture Searchを用いて出品違反検知モデリングを高速化したお話

Presented at MLCT #10

sh19910711 2024/06/14

"強化学習でRNNの重みを最適化 + 生成された子モデルのシグナルを使ってパラメータ更新 / DARTS: アーキテクチャの最適化を微分可能にすることでRNNを不要に / 月単位で行われていた開発を週単位に落とした" 2019

リンク

強化学習「理論」入門

2022年度 TopSE「機械学習概論」コースの一部として使用した講義資料です。 https://www.topse.jp/ja/curriculum-lectures.html

sh19910711 2024/06/12

"教師なし学習: データに対する知見を得ることが主な目的 + 「正解」の定義はない / 強化学習: マルコフ決定過程として環境と報酬を定義 + 総報酬を最大化することがゴール" 2022

リンク

再帰型強化学習 - Pythonと機械学習

目次目次はじめに再帰型強化学習のアルゴリズム Pythonで実装してみる検証結果シャープレシオの推移過去の期間Tでの学習結果未来の期間Tでの取引シミュレーション結果はじめにこちらのブログで紹介されている、再帰型強化学習を使ってFXトレードをしてみるという記事が面白そうだったので試してみることにしました。再帰型強化学習について知識はゼロですが、取り敢えずやってみるというのが大事じゃないかと思います。強化学習とは機械学習の一種で、エージェントがアクションを起こして、そのアクションによって報酬をもらえるというような仕組みみたいで、各アクションでもらえる報酬を最大化するように学習を実施するという物らしいです。更に再帰型なので、なんかよくわからなくてすごそうです。英語(Recurrent Reinforcement Learning)の頭文字をとってRRLと呼ばれてるみたいで

sh19910711 2024/06/10

"𝐹𝑡は𝑡より前の𝑀個の各時刻の価格変動𝑟𝑡と一つ前の時刻のアクション𝐹𝑡−1に適当な重み𝑤をかけて足し合わせた後ハイパブリックタンジェントの出力 / 𝐹𝑡−1が必要なところが再帰型" 2017

リンク

DQN（Deep Q Network）を理解したので、Gopherくんの図を使って説明 - Qiita

概要強化学習のDQN(Deep Q-Network)について理解したので、ゆるくGopherくんを使って説明を試みました。 DQNは人間を打ち負かしたAlpha Goでも使われています。強化学習は書籍もネットの記事も難解なものが多いので、なるべく図で具体的に記載しました。強化学習とはある状態における最適な行動を学習する、機械学習の手法の一つ。モデル化ゴーファーくんがケーキを食べるために、最適な行動を学習することを例に考えてみます。 The Go gopher was designed by Renée French. エージェントある環境で動くプレーヤー → ゴーファーくん状態（status）エージェントが置かれている状況 $S=\{s_1,s_2,s_3 \cdots \}$ → どのマスにゴーファーくんがいて、どのマスにケーキがあるか？各マスに１〜９の番号をふるゴー

sh19910711 2024/06/06

"報酬関数: ある状態𝑠𝑡である行動𝑎𝑡をとって、𝑠𝑡+1の状態になって得られる報酬を返す / 時間割引率: 3回移動してケーキを食べられるのと、5回移動してケーキを食べられるのは前者のほうが良い" 2018

リンク

カードゲームの強化学習 - Qiita

Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? はじめによく知られる碁の強化学習は「Alpha Go」があり、将棋やチェスにも対応した強化学習は「AlphaZero」とか「MuZero」がある。オセロAIもDeepLearning的立ち位置からやられる事がある。（評価関数的AIの場合もある）ポーカー（テキサスホールデム）の強化学習は「Pluribus」、麻雀の強化学習は「Suphx」がある。一方、コンピュータゲームではAtari(70,80年代のビデオゲーム機)のゲームをやるモデルに「Agent57」、「MuZero」、「R2D2」等がある。また、マリオの強化学習としてDQN

sh19910711 2024/05/13

"マリオだと入力データが(4,84,84)なのでstrideで画像サイズを減らして演算量を減らすメリットがある / 6種類のカードから成る簡単な環境であればDQN学習でもカードゲームのプレイが出来ているように見える" 2023

リンク

強化学習でスーパーマリオをクリアする - Qiita

https://vigne-cla.com/3-4/ の記事によると人口知能の学習に使えるスーパーマリオの環境は Kautenjaさんが作成したgym_super_mario_brosと ppaquetteさんが作成したppaquette_gym_super_mario がある。ここではppaquette_gym_super_marioを使用している https://qiita.com/tsunaki/it ems/ec2556dc147c6d263b9d のコードを使用させていただき、スーパーマリオの強化学習を進めていきます。（tsunaki様、こちらのページありがとうございます）基本情報環境はgymをベースにしている。 gymの情報： https://github.com/openai/gym/blob/master/README.rst 画面データはもともと256x224でre

sh19910711 2024/05/09

"ppaquette_gym_super_mario: 環境はgymをベース + 画面を縦13個、横16個のtileという単位に直して処理している / 試行ごとにランダムの割合epsを1から少しずつ減らしていく / 試行は2000回 + epsが0.5くらいのときにめでたくゴール" 2019

リンク

感想「深層強化学習による東方AI」 – @knok blog

能登さんが発行された技術系同人誌、「深層強化学習による東方AI」のダウンロード版を入手したので読みました。BoothとGumroadで販売されているおり、特に理由はありませんがGumroadで購入しました。第13回博麗神社例大祭で頒布した『深層強化学習による東方AI』のダウンロード版をBooth https://t.co/ZysBlu7LY4 およびGumroad https://t.co/HtgRa44sr6 にて販売しています． pic.twitter.com/7rDT2qG9uq — 何もわからん (@ntddk) 2016年5月8日東方紺珠伝というシューティングゲームを、深層機械学習によってクリアさせようというものです。この種の話でまず思い浮かぶのが、八重樫さんによるvArashiです。Linux Conference 2002にて発表された資料(PDF)もあります。今にな

sh19910711 2024/05/09

"大昔のログインで実際にシューティングプレイヤーへアイトラッキングデバイスを装着させた記事があった / 不慣れなプレイヤーは主に自機を中心に見ているが、上級プレイヤーは自機の少し先を見ている傾向" 2016

リンク

【Unity ML-Agents】 Self-Play Reinforcement Learningで対戦ゲームのAIを作ってみた - Qiita

Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? はじめに Atari 2600 Gamesの攻略を発端として有名となった強化学習ですが，ここ数年でプレイヤーが複数人いるゲームのための強化学習の研究も盛んに行われています．Self-Play Reinforcement Learning (Self-Play RL) はマルチプレイのゲームの学習にしばしば用いられる学習方法であり，囲碁やDota 2のAI開発に使われたことで注目を浴びました．今回は，Unityによる自作の対戦ゲームのAIをSelf-Play RLによって作成してみようと思います． Self-Play Reinforc

sh19910711 2024/05/06

"Self-Play RL: 自身の戦略のコピーを作成し，それを相手として学習をすすめる / Firoiu: 大乱闘スマッシュブラザーズDXにおいてトップランカーに匹敵" arXiv:1702.06230 2019

リンク

はてなブックマーク

タグ

関連タグで絞り込む (13)

*algorithmとrlに関するsh19910711のブックマーク (47)

お知らせ

今週のはてなブックマーク数ランキング（2025年11月第3週）

今週のはてなブックマーク数ランキング（2025年11月第2週）

月間はてなブックマーク数ランキング（2025年10月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス