[B! *algorithm][*game] sh19910711のブックマーク

スイカゲームを強化学習で攻略したい（環境構築編） - ABEJA Tech Blog

はじめにハードウェアの準備 Arduino の準備 Switch -> PC 環境の実装 stepメソッド状態の遷移報酬を計算する終了判定 reset メソッドゲームのリトライ自動プレイのテストはじめに ABEJAでデータサイエンティストをしている清田です。今回は強化学習で何かゲームの学習をやってみたいと考え、その題材としてスイカゲームを扱えるようにしました。「強化学習で攻略したい」と銘打っているのですが、この記事で扱うのはその準備までです。スイカゲームは Nintendo Switch （以下 Switch）用ゲームとして発売された落ち物パズルゲームです。箱の中に果物を落としていき、同じ種類の果物同士を接触させると合わさって一段階上の果物に変化します。より上位の果物を作るほど高い点数が得られます。箱から果物が飛び出してしまうとゲームオーバーです。2048 パズル + 落

sh19910711 2025/09/01

2024 / "Switch に Aruduino をNintendo Switch Pro コントローラー（プロコン）として認識させる / シリアル出力を Switch への出力に変換するやつ / 映像出力をキャプチャーボード（AverMedia 2Plus）を用いてPCに出力"

リンク

強化学習のマンカラ環境を作った話 - マルチエージェントRLライブラリ概観

初めにこの記事は強化学習アドベントカレンダー 2021の記事として書かれたものです．初めまして，qqhann です．筑波大で修士をしており，修了の瀬戸際です．強化学習若手の会を知ったのは今年の初め頃だったと思います．Slack コミュニティに参加し，勉強会に参加してたまに質問させていただいたり，共有された記事を読んだりして，いつもためになっています．最近では，ゼロから作る Deep Learning 4 のオープンレビューをそこで知り，通読させていただきました．レビューするつもりで文章を読むと集中力が違うからか，理解も進むように感じますね．強化学習若手の会にせっかく参加しているので，そこでもいつまでも読み専門というのも良くないなと思い，記事を書くことにしました．初めての Zenn 記事でもあります．今年の前半に，強化学習を動かせるマンカラ環境を作成し，公開しました．当時は Ope

sh19910711 2025/05/17

2021 / "EFG: 全ての状態は木のノード + 行動をすることで枝分かれ + 探索による古典的アルゴリズムと相性がいい / OpenSpiel: EFG のパラダイムに則ったライブラリ"

リンク

Apex Legendsによる文化的背景の違うユーザの交流に関する分析(#1)｜shimasan0x00

こんにちは，Shimasan(@shimasan0x00)です．皆さんはApex Legends（エーペックスレジェンズ）遊んでますか？遊んでいなくてもどこかでその単語を目にすることがあることかと思います．この基本無料バトロワゲームを介して最近，顕著な変化が起きていると私は感じています．それは「APEX」を介した文化的背景の違うユーザの交流です．最近，APEXをメインで配信している配信者やプロゲーマーがアイドル，漫画家やアーティスト，クリエイター，芸能人と共にプレイすることが各種配信サイトで確認することができます．通常，これらの多様なユーザ(特に配信者)は特別なキッカケがなければ交流することが難しいと考えられます．現在はそれらのユーザが「APEX」を介して交流する機会というのが増えています．さらにこの現象によってそれらのユーザに興味・関心を持つ一般的なユーザも違う分野のコミ

sh19910711 2025/05/09

2021 / "APEX: 芸人やアーティスト，歌い手，アイドルなど多種多様なユーザと配信者がつながっている / ユーザの色はLouvain法というコミュニティ抽出法によってコミュニティ別に着色"

リンク

A3Cでテトリスを強化学習させてみた (失敗例その1) - Qiita

Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 強化学習が流行っている昨今、自分も何か勉強せねばと思い、テトリスを強化学習で解かせてみることにしました。強化学習というと、少し前に流行ったDQN、その後続いた研究成果の集大成であるA3Cの2種類が今まず学ぶべきものだろうということで、その2つを試しています。ただ、DQNではお話にならないくらい性能が出なかったのでわざわざ記事にはせず、思い出の中にしまいこみました。一方、A3Cの方は多少「それっぽい」挙動を示し始めています。タイトルに「失敗例」としている通り、全然満足なレベルには到達していません。それでも、うちの妻曰く「何か考えている

sh19910711 2024/10/13

"妻曰く「何か考えている様子は見られる」と一定の評価 / Optimizer=Adamが多くのケースで最強というのはよく知られています。強化学習の場合でも、同じく非常によい性能を持つ" '17

リンク

Learning in games: ゲーム理論とオンライン学習

発表概要： GANやマルチエージェント強化学習の発展によって、ミニマックス最適化問題を中心としたゲームのナッシュ均衡解を効率的に近似するアルゴリズムの開発に大きな関心が寄せられています。しかし、多くの研究者及び実務家にとって有用な話題である一方で、ゲームの均衡学習に関する資料や解説は国内において極めて…

sh19910711 2024/10/04

"Learning in games: ミニマックス最適化問題を中心としたマルチエージェントゲームのナッシュ均衡解を効率的に近似・学習する / ゲームにおけるオンライン学習" '23

リンク

ディープラーニングでファミコンの音楽を生成してみた - Qiita

Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? ひとり開発 Advent Calendar 2019 の16日目の記事です。昨年に続いて参戦させていただいています。（→ 昨年書いた記事1・記事2）記事の概要ディープラーニングを活用して、ファミコンの音楽の自動生成にチャレンジしました。曲をタイミングセクションとメロディ・ハーモニーセクションの2つに分解して、生成するアプローチを考えました。うまくいきません。助けてください。できたものディープラーニングでファミコンの音楽を生成する実験です。https://t.co/3q8fZtIYtE — tanikawa (@diato

sh19910711 2024/06/21

"すでに研究事例が存在しないか調査したところ、ピンポイントでファミコン音楽の生成を行っている論文 / LakhNES: Transformer-XL 1 をベースとしたもので、単純に MIDI イベントを1ステップずつ生成していくアプローチ" 2019

リンク

【論文】Bridging the Human–AI Knowledge Gap: Concept Discovery and Transfer in AlphaZeroを読む - TadaoYamaokaの開発日記

DeepMindがarXivで発表した、AlphaZeroからチェスの新しい概念を抽出して人間のパフォーマンス向上に使えるようにする方法について述べた「Bridging the Human-AI Knowledge Gap: Concept Discovery and Transfer in AlphaZero」を読んだ際のメモ。概要 AlphaZeroから隠されたチェスの知識を概念として抽出する概念は、AlphaZeroの中間層から概念ベクトルとして抽出する人間が知らずAlphaZeroだけが知っていること発見する学習可能かつ新規な概念を抽出する人間のグランドマスターが概念を学習可能か検証した結果概念と局面を提示することで、チェスのグランドマスターのテスト局面の正解率が向上した AlphaZeroが学習した知識は、人間の理解を超えるものではなく学習可能な知識であることが示さ

sh19910711 2024/06/10

"AlphaZeroから隠されたチェスの知識を概念として抽出 / 人間のグランドマスターが概念を学習可能か検証 / AlphaZeroが学習した知識は、人間の理解を超えるものではなく学習可能な知識であることが示された"

リンク

HOG特徴量を用いたポケモンのアイコン画像判別 - Qiita

目的ポケモンの対戦ログツールは色々とあるんだけど、相手パーティの内容を自分で入力しないといけないのがかったるすぎるので自動で判別してくれるようなものを作りたかった。 HOG特徴量を使ってみたかった。実装済みのものは記事の一番下に置いてあります。 ※今回のバージョンは偽トロキャプチャなどを使ってモニタなどに映された画面を対象としてます。 HOG特徴量について HOG (Histgram Of Gradient) は画像中の輝度勾配の分布みたいな感じです。輝度が大きく変化する場所を検出できるので、おおまかに言って画像のエッジ分布を取得できます。ここの説明がわかりやすかった。画像で表現すると、こんな感じになります。 (画像の出典は琴葉姉妹立ち絵素材(各30種)) 利用できるデータの背景色と判別対象となるゲーム画面での背景色が異なるゲーム画面の方では位置によって背景色が異なるの2

sh19910711 2024/06/08

"HOG: 画像中の輝度勾配の分布みたいな感じ + 輝度が大きく変化する場所を検出できる / 30x30画像をBGRの3色のチャンネルに分割 + 3色分のHOGを結合して972次元のベクトルにする / 8割程度は当てられる" 2017

リンク

機械学習を用いたポケモン対戦選出予測

sh19910711 2024/05/27

"どうやって対戦データを集めるか / YouTube: 規約上botアクセスができない > クラウドソーシングで作業者を募集 / BERT: ポケモン名を新しい単語として定義 + パーティの並びからベクトルを学習 + 穴埋め問題を解かせる"

リンク

Aligned Variational Autoencoder で麻雀の配牌を生成する - taijestのブログ

こんにちは。taijest です。この記事は、Sansan Advent Calendar 2021 の 7日目の記事です。はじめに皆さんは、在宅期間なにをして過ごしていますか？私は、AbemaTV で放送されている麻雀リーグ「Mリーグ」にハマっています。リーグ戦は、各チームの選手の獲得スコア合計で競い合い、一定の試合数を消化すると下位チームが脱落していくという仕組みです。ある程度セオリーがありつつも、選手のスタイルや得点状況、チーム順位によって選択が変わってくるところがとても面白いです。さて、麻雀の勝敗を決する大きな要素の一つとして、配牌があります。配牌とは、開局時に各選手に与えられる牌のことです。配牌は、早さ (どれだけ早くあがれそうか) や高さ (あがった時にどれだけ高い点数になりそうか) の観点から、その局の勝敗に大きく影響します。本記事では、麻雀への理解を深めるた

sh19910711 2024/05/18

"Aligned Variational Autoencoder: データと付与されたラベルで共通の潜在空間 + ラベルからもデータを生成しやすくなり、少ない学習データから画像を生成する Few-shot や Zero-shot な問題設定で有効" arXiv:1812.01784 2021

リンク

カードゲームの強化学習 - Qiita

Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? はじめによく知られる碁の強化学習は「Alpha Go」があり、将棋やチェスにも対応した強化学習は「AlphaZero」とか「MuZero」がある。オセロAIもDeepLearning的立ち位置からやられる事がある。（評価関数的AIの場合もある）ポーカー（テキサスホールデム）の強化学習は「Pluribus」、麻雀の強化学習は「Suphx」がある。一方、コンピュータゲームではAtari(70,80年代のビデオゲーム機)のゲームをやるモデルに「Agent57」、「MuZero」、「R2D2」等がある。また、マリオの強化学習としてDQN

sh19910711 2024/05/13

"マリオだと入力データが(4,84,84)なのでstrideで画像サイズを減らして演算量を減らすメリットがある / 6種類のカードから成る簡単な環境であればDQN学習でもカードゲームのプレイが出来ているように見える" 2023

リンク

不正検知を可能とする弱教師あり学習手法「DevNet」の紹介〜膨大なデータに潜む異常を最小限のラベリングで見つける技術〜

sh19910711 2024/05/11

"不正対策の難しさ: 不正かどうかの判断には文脈を考慮する必要がある + 一回ならまぐれかもしれない / 考慮しなければいけないことが時間と共に変化 / DevNet: 未知のデータは正常とみなして学習" arXiv:1911.08623 2021

リンク

強化学習でスーパーマリオをクリアする - Qiita

https://vigne-cla.com/3-4/ の記事によると人口知能の学習に使えるスーパーマリオの環境は Kautenjaさんが作成したgym_super_mario_brosと ppaquetteさんが作成したppaquette_gym_super_mario がある。ここではppaquette_gym_super_marioを使用している https://qiita.com/tsunaki/it ems/ec2556dc147c6d263b9d のコードを使用させていただき、スーパーマリオの強化学習を進めていきます。（tsunaki様、こちらのページありがとうございます）基本情報環境はgymをベースにしている。 gymの情報： https://github.com/openai/gym/blob/master/README.rst 画面データはもともと256x224でre

sh19910711 2024/05/09

"ppaquette_gym_super_mario: 環境はgymをベース + 画面を縦13個、横16個のtileという単位に直して処理している / 試行ごとにランダムの割合epsを1から少しずつ減らしていく / 試行は2000回 + epsが0.5くらいのときにめでたくゴール" 2019

リンク

感想「深層強化学習による東方AI」 – @knok blog

能登さんが発行された技術系同人誌、「深層強化学習による東方AI」のダウンロード版を入手したので読みました。BoothとGumroadで販売されているおり、特に理由はありませんがGumroadで購入しました。第13回博麗神社例大祭で頒布した『深層強化学習による東方AI』のダウンロード版をBooth https://t.co/ZysBlu7LY4 およびGumroad https://t.co/HtgRa44sr6 にて販売しています． pic.twitter.com/7rDT2qG9uq — 何もわからん (@ntddk) 2016年5月8日東方紺珠伝というシューティングゲームを、深層機械学習によってクリアさせようというものです。この種の話でまず思い浮かぶのが、八重樫さんによるvArashiです。Linux Conference 2002にて発表された資料(PDF)もあります。今にな

sh19910711 2024/05/09

"大昔のログインで実際にシューティングプレイヤーへアイトラッキングデバイスを装着させた記事があった / 不慣れなプレイヤーは主に自機を中心に見ているが、上級プレイヤーは自機の少し先を見ている傾向" 2016

リンク

【Unity ML-Agents】 Self-Play Reinforcement Learningで対戦ゲームのAIを作ってみた - Qiita

Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? はじめに Atari 2600 Gamesの攻略を発端として有名となった強化学習ですが，ここ数年でプレイヤーが複数人いるゲームのための強化学習の研究も盛んに行われています．Self-Play Reinforcement Learning (Self-Play RL) はマルチプレイのゲームの学習にしばしば用いられる学習方法であり，囲碁やDota 2のAI開発に使われたことで注目を浴びました．今回は，Unityによる自作の対戦ゲームのAIをSelf-Play RLによって作成してみようと思います． Self-Play Reinforc

sh19910711 2024/05/06

"Self-Play RL: 自身の戦略のコピーを作成し，それを相手として学習をすすめる / Firoiu: 大乱闘スマッシュブラザーズDXにおいてトップランカーに匹敵" arXiv:1702.06230 2019

リンク

コンピュータ将棋でDeep Learningごっこしてみたまとめ - Qiita

コンピュータ将棋を題材にdeepなニューラルネットを自作して遊んでみた結果得られたノウハウのメモ。 Deep Learningはfeature engineeringしてくれないまあ当たり前の話ですが、「画像や囲碁にDCNNというモデルがとても効果的だった」＋「DCNNへの入力は従来より雑なfeature (ほぼ生の情報やそれ＋α)で大丈夫だった」というだけの話で、feature engineeringやネットワークの設計は結局のところ問題に特化して考えないといけないよね、という話。少なくとも将棋の駒の配置だけを入力にして全結合層をたくさん並べただけでは、現実的な中間層の大きさでは全然予測性能が出ませんでした。将棋の場合線形性が強いのでdeepである必要はあんまり無さそうに思えます。全結合よりはDCNNの方がちょっとマシっぽいですが、それにしても3駒に匹敵するようなことにはならなそ

sh19910711 2024/05/03

"深いネットワークでバイアス項無しだとだいぶ勾配が伝搬しにくくなる / 中間層のユニット数を100倍くらい増やすと、多くの場合、学習率がそのままでは大きすぎ / 学習率に限らず初期値も分散を合計1にするのがよい" 2016

リンク

ML-Agentsで模倣学習（GAIL）を取り入れた強化学習を行う - Qiita

Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 要約コンセプト：報酬がスパースな環境だとエージェントが報酬に辿り着けず、学習が進まない・・ので模倣学習で人間が手本を見せる UnityのML-Agentsで強化学習＋模倣学習（GAIL）をする手順の紹介はじめに Unityでは、ML-Agentsというライブラリを使うことで機械学習を行うことができます。ML-Agentsは特に強化学習（Reinforcement learning）を容易に行うことが可能であり、Unityエディタ上で容易に環境を構築、スクリプトで報酬の設定等を行うこともできます。ですが、ゲームにおいて強化学習でうま

sh19910711 2024/04/28

"人間が報酬にたどり着くような行動を模倣学習でエージェントに学習させる / ML-Agentsでは現在BCとGAILの2種類の模倣学習をサポート / GAIL: デモンストレーションの数が少ない場合でも効果的 + 事前学習が可能" 2019

リンク

【強化学習】DreamerV3を解説・実装 - Qiita

Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? この記事は自作している強化学習フレームワークの解説記事です。前：Dreamer2 次：DIAMOND DreamerV3の概要 DreamerV3は、極めて難しいタスクとして知られる Minecraft のダイヤモンド収集タスクを初めてゼロから解いたアルゴリズムとして話題になりました。論文での内容としては大きく以下となります。出来るだけパラメータを固定し幅広い環境で好成績を収めた Minecraftのダイヤモンド収集タスクが実行可能な初めてのアルゴリズムモデルが大きいほど性能が良くなる事実を発見した参考・Mastering

sh19910711 2024/04/17

"DreamerV3: Minecraftのダイヤモンド収集タスクが実行可能 / V2では1エピソードにDummyステップを挿入して同じ長さにし、バッチ長毎に学習 / V3ではエピソードをまたいでバッチを作成 + 区切りではRNNの隠れ状態を初期化"

リンク

対戦パズルゲーム「ゴドマチ」で理解する組み合わせゲーム理論とグランディ数 - アジマティクス

チェスも、将棋も、囲碁も、コンピューターが人間に勝利して久しいですが、「コンピューター」つまり「計算機」というからには、それぞれのゲームに対して何らかの「計算」をして、一つ一つの手を指しているわけです。メディアではよくコンピューター将棋などについて華々しく紹介されるけれども、じゃあ実際にそれらがどういう計算をしているのか？ということについては何も知らないという人がほとんどじゃないかと思います。今回はそんなゲームのコンピューター対戦につながる初歩の初歩、ゲームを「計算する」とはどういうことなのか、というお話です。この記事は、「数学ゲーム Advent Calendar 2018」20日目の記事です。ゴドマチ「ゴドマチ」という対戦パズルゲームがあります。略さず言うと「合同を待ちながら」。はい。そういうことです。考案者の方によるルール解説はこちら↓ j344.exblog.jp ゴド

sh19910711 2024/04/05

"ゴドマチ: 正規形ゲームであり、不偏ゲームであり、二人零和有限確定完全情報ゲーム / 組み合わせゲーム: 数あるゲームの中でも特に分析しやすく、それ故に特に研究が進んでいる" 2018

リンク

KerasでQ学習 - Qiita

KerasでQ学習してみました。今回は畳み込みをしない全結合のニューラル・ネットワークを利用して学習しています。こんな感じ。Ｑ学習を手軽に試すことの出来るレポジトリが公開されています。 farizrahman4u/qlearning4k - GitHub こちらを一部改変してみました。ゲームのグリッドサイズを8x8サイズに変更し、学習モデルを保存・再生出来るようにしています。ゲームの実行画面はmatplotlibのアニメーションメソッドを利用して可視化出来るようにしてみました。サンプルは以下のレポジトリにあります。 PonDad/qgakusyuu4k - GitHub train_catch.pyで学習後play_catch.pyで実行することが出来ます。さて、中身をみていきます。環境 Python 3.5.2 tensorflow(0.12.0) GPU keras(1.2.1)

sh19910711 2024/03/23

"8x8のグリッドサイズの画面で、落ちてくる果物をカゴでキャッチする / 1000回学習した後、100%キャッチ出来る / 「報酬」を得た「ゲーム画面の配列」のみを抽出して学習させる" farizrahman4u/qlearning4k 2017

リンク

はてなブックマーク

タグ

関連タグで絞り込む (32)

algorithmとgameに関するsh19910711のブックマーク (54)

お知らせ

今週のはてなブックマーク数ランキング（2025年11月第4週）

はてなブックマーク一部機能のメンテナンスに関するお知らせ

今週のはてなブックマーク数ランキング（2025年11月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

関連タグで絞り込む (32)

*algorithmと*gameに関するsh19910711のブックマーク (54)

お知らせ

今週のはてなブックマーク数ランキング（2025年11月第4週）

はてなブックマーク一部機能のメンテナンスに関するお知らせ

今週のはてなブックマーク数ランキング（2025年11月第3週）

公式Twitter

キーボードショートカット一覧

公式Twitter

はてなのサービス

algorithmとgameに関するsh19910711のブックマーク (54)