タグ

*algorithmと*gameに関するsh19910711のブックマーク (52)

  • 強化学習のマンカラ環境を作った話 - マルチエージェントRLライブラリ概観

    初めに この記事は強化学習アドベントカレンダー 2021の記事として書かれたものです. 初めまして,qqhann です.筑波大で修士をしており,修了の瀬戸際です. 強化学習若手の会を知ったのは今年の初め頃だったと思います.Slack コミュニティに参加し,勉強会に参加してたまに質問させていただいたり,共有された記事を読んだりして,いつもためになっています.最近では,ゼロから作る Deep Learning 4 のオープンレビューをそこで知り,通読させていただきました.レビューするつもりで文章を読むと集中力が違うからか,理解も進むように感じますね.強化学習若手の会にせっかく参加しているので,そこでもいつまでも読み専門というのも良くないなと思い,記事を書くことにしました.初めての Zenn 記事でもあります. 今年の前半に,強化学習を動かせるマンカラ環境を作成し,公開しました. 当時は Ope

    強化学習のマンカラ環境を作った話 - マルチエージェントRLライブラリ概観
    sh19910711
    sh19910711 2025/05/17
    2021 / "EFG: 全ての状態は木のノード + 行動をすることで枝分かれ + 探索による古典的アルゴリズムと相性がいい / OpenSpiel: EFG のパラダイムに則ったライブラリ"
  • Apex Legendsによる文化的背景の違うユーザの交流に関する分析(#1)|shimasan0x00

    こんにちは,Shimasan(@shimasan0x00)です. 皆さんはApex Legends(エーペックスレジェンズ)遊んでますか? 遊んでいなくてもどこかでその単語を目にすることがあることかと思います. この基無料バトロワゲームを介して最近,顕著な変化が起きていると私は感じています. それは「APEX」を介した文化的背景の違うユーザの交流です. 最近,APEXをメインで配信している配信者やプロゲーマーがアイドル漫画家やアーティスト,クリエイター,芸能人と共にプレイすることが各種配信サイトで確認することができます. 通常,これらの多様なユーザ(特に配信者)は特別なキッカケがなければ交流することが難しいと考えられます. 現在はそれらのユーザが「APEX」を介して交流する機会というのが増えています. さらにこの現象によってそれらのユーザに興味・関心を持つ一般的なユーザも違う分野のコミ

    Apex Legendsによる文化的背景の違うユーザの交流に関する分析(#1)|shimasan0x00
    sh19910711
    sh19910711 2025/05/09
    2021 / "APEX: 芸人やアーティスト,歌い手,アイドルなど多種多様なユーザと配信者がつながっている / ユーザの色はLouvain法というコミュニティ抽出法によってコミュニティ別に着色"
  • A3Cでテトリスを強化学習させてみた (失敗例その1) - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 強化学習が流行っている昨今、自分も何か勉強せねばと思い、テトリスを強化学習で解かせてみることにしました。 強化学習というと、少し前に流行ったDQN、その後続いた研究成果の集大成であるA3Cの2種類が今まず学ぶべきものだろうということで、その2つを試しています。ただ、DQNではお話にならないくらい性能が出なかったのでわざわざ記事にはせず、思い出の中にしまいこみました。 一方、A3Cの方は多少「それっぽい」挙動を示し始めています。タイトルに「失敗例」としている通り、全然満足なレベルには到達していません。それでも、うちの曰く「何か考えている

    A3Cでテトリスを強化学習させてみた (失敗例その1) - Qiita
    sh19910711
    sh19910711 2024/10/13
    "妻曰く「何か考えている様子は見られる」と一定の評価 / Optimizer=Adamが多くのケースで最強というのはよく知られています。強化学習の場合でも、同じく非常によい性能を持つ" '17
  • Learning in games: ゲーム理論とオンライン学習

    発表概要: GANやマルチエージェント強化学習の発展によって、ミニマックス最適化問題を中心としたゲームのナッシュ均衡解を効率的に近似するアルゴリズムの開発に大きな関心が寄せられています。 しかし、多くの研究者及び実務家にとって有用な話題である一方で、ゲームの均衡学習に関する資料や解説は国内において極めて…

    Learning in games: ゲーム理論とオンライン学習
    sh19910711
    sh19910711 2024/10/04
    "Learning in games: ミニマックス最適化問題を中心としたマルチエージェントゲームのナッシュ均衡解を効率的に近似・学習する / ゲームにおけるオンライン学習" '23
  • ディープラーニングでファミコンの音楽を生成してみた - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? ひとり開発 Advent Calendar 2019 の16日目の記事です。 昨年に続いて参戦させていただいています。 (→ 昨年書いた記事1・記事2) 記事の概要 ディープラーニングを活用して、ファミコンの音楽の自動生成にチャレンジしました。 曲をタイミングセクションとメロディ・ハーモニーセクションの2つに分解して、生成するアプローチを考えました。 うまくいきません。助けてください。 できたもの ディープラーニングでファミコンの音楽を生成する実験です。https://t.co/3q8fZtIYtE — tanikawa (@diato

    ディープラーニングでファミコンの音楽を生成してみた - Qiita
    sh19910711
    sh19910711 2024/06/21
    "すでに研究事例が存在しないか調査したところ、ピンポイントでファミコン音楽の生成を行っている論文 / LakhNES: Transformer-XL 1 をベースとしたもので、単純に MIDI イベントを1ステップずつ生成していくアプローチ" 2019
  • 【論文】Bridging the Human–AI Knowledge Gap: Concept Discovery and Transfer in AlphaZeroを読む - TadaoYamaokaの開発日記

    DeepMindがarXivで発表した、AlphaZeroからチェスの新しい概念を抽出して人間のパフォーマンス向上に使えるようにする方法について述べた「Bridging the Human-AI Knowledge Gap: Concept Discovery and Transfer in AlphaZero」を読んだ際のメモ。 概要 AlphaZeroから隠されたチェスの知識を概念として抽出する 概念は、AlphaZeroの中間層から概念ベクトルとして抽出する 人間が知らずAlphaZeroだけが知っていること発見する 学習可能かつ新規な概念を抽出する 人間のグランドマスターが概念を学習可能か検証した 結果 概念と局面を提示することで、チェスのグランドマスターのテスト局面の正解率が向上した AlphaZeroが学習した知識は、人間の理解を超えるものではなく学習可能な知識であることが示さ

    【論文】Bridging the Human–AI Knowledge Gap: Concept Discovery and Transfer in AlphaZeroを読む - TadaoYamaokaの開発日記
    sh19910711
    sh19910711 2024/06/10
    "AlphaZeroから隠されたチェスの知識を概念として抽出 / 人間のグランドマスターが概念を学習可能か検証 / AlphaZeroが学習した知識は、人間の理解を超えるものではなく学習可能な知識であることが示された"
  • HOG特徴量を用いたポケモンのアイコン画像判別 - Qiita

    #目的 ポケモンの対戦ログツールは色々とあるんだけど、相手パーティの内容を自分で入力しないといけないのがかったるすぎるので自動で判別してくれるようなものを作りたかった。 HOG特徴量を使ってみたかった。 実装済みのものは記事の一番下に置いてあります。 ※今回のバージョンは偽トロキャプチャなどを使ってモニタなどに映された画面を対象としてます。 #HOG特徴量について HOG (Histgram Of Gradient) は画像中の輝度勾配の分布みたいな感じです。 輝度が大きく変化する場所を検出できるので、おおまかに言って画像のエッジ分布を取得できます。 ここの説明がわかりやすかった。 画像で表現すると、 こんな感じになります。 (画像の出典は琴葉姉妹 立ち絵素材(各30種)) 利用できるデータの背景色と判別対象となるゲーム画面での背景色が異なる ゲーム画面の方では位置によって背景色が異なる

    HOG特徴量を用いたポケモンのアイコン画像判別 - Qiita
    sh19910711
    sh19910711 2024/06/08
    "HOG: 画像中の輝度勾配の分布みたいな感じ + 輝度が大きく変化する場所を検出できる / 30x30画像をBGRの3色のチャンネルに分割 + 3色分のHOGを結合して972次元のベクトルにする / 8割程度は当てられる" 2017
  • 機械学習を用いたポケモン対戦選出予測

    sh19910711
    sh19910711 2024/05/27
    "どうやって対戦データを集めるか / YouTube: 規約上botアクセスができない > クラウドソーシングで作業者を募集 / BERT: ポケモン名を新しい単語として定義 + パーティの並びからベクトルを学習 + 穴埋め問題を解かせる"
  • Aligned Variational Autoencoder で麻雀の配牌を生成する - taijestのブログ

    こんにちは。taijest です。 この記事は、Sansan Advent Calendar 2021 の 7日目の記事です。 はじめに 皆さんは、在宅期間なにをして過ごしていますか? 私は、AbemaTV で放送されている麻雀リーグ「Mリーグ」にハマっています。 リーグ戦は、各チームの選手の獲得スコア合計で競い合い、一定の試合数を消化すると下位チームが脱落していくという仕組みです。 ある程度セオリーがありつつも、選手のスタイルや得点状況、チーム順位によって選択が変わってくるところがとても面白いです。 さて、麻雀の勝敗を決する大きな要素の一つとして、配牌があります。配牌とは、開局時に各選手に与えられる牌のことです。配牌は、早さ (どれだけ早くあがれそうか) や高さ (あがった時にどれだけ高い点数になりそうか) の観点から、その局の勝敗に大きく影響します。 記事では、麻雀への理解を深めるた

    Aligned Variational Autoencoder で麻雀の配牌を生成する - taijestのブログ
    sh19910711
    sh19910711 2024/05/18
    "Aligned Variational Autoencoder: データと付与されたラベルで共通の潜在空間 + ラベルからもデータを生成しやすくなり、少ない学習データから画像を生成する Few-shot や Zero-shot な問題設定で有効" arXiv:1812.01784 2021
  • カードゲームの強化学習 - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? はじめに よく知られる碁の強化学習は「Alpha Go」があり、将棋やチェスにも対応した強化学習は「AlphaZero」とか「MuZero」がある。 オセロAIDeepLearning的立ち位置からやられる事がある。(評価関数的AIの場合もある) ポーカー(テキサスホールデム)の強化学習は「Pluribus」、麻雀の強化学習は「Suphx」がある。 一方、コンピュータゲームではAtari(70,80年代のビデオゲーム機)のゲームをやるモデルに「Agent57」、「MuZero」、「R2D2」等がある。また、マリオの強化学習としてDQN

    カードゲームの強化学習 - Qiita
    sh19910711
    sh19910711 2024/05/13
    "マリオだと入力データが(4,84,84)なのでstrideで画像サイズを減らして演算量を減らすメリットがある / 6種類のカードから成る簡単な環境であればDQN学習でもカードゲームのプレイが出来ているように見える" 2023
  • 不正検知を可能とする弱教師あり学習手法「DevNet」の紹介 〜膨大なデータに潜む異常を最小限のラベリングで見つける技術〜

    sh19910711
    sh19910711 2024/05/11
    "不正対策の難しさ: 不正かどうかの判断には文脈を考慮する必要がある + 一回ならまぐれかもしれない / 考慮しなければいけないことが時間と共に変化 / DevNet: 未知のデータは正常とみなして学習" arXiv:1911.08623 2021
  • 強化学習でスーパーマリオをクリアする - Qiita

    https://vigne-cla.com/3-4/ の記事によると人口知能の学習に使えるスーパーマリオの環境は Kautenjaさんが作成したgym_super_mario_brosと ppaquetteさんが作成したppaquette_gym_super_mario がある。 ここではppaquette_gym_super_marioを使用している https://qiita.com/tsunaki/items/ec2556dc147c6d263b9d のコードを使用させていただき、スーパーマリオの強化学習を進めていきます。 (tsunaki様、こちらのページありがとうございます) ##基情報 環境はgymをベースにしている。 gymの情報: https://github.com/openai/gym/blob/master/README.rst 画面データはもともと256x224で

    強化学習でスーパーマリオをクリアする - Qiita
    sh19910711
    sh19910711 2024/05/09
    "ppaquette_gym_super_mario: 環境はgymをベース + 画面を縦13個、横16個のtileという単位に直して処理している / 試行ごとにランダムの割合epsを1から少しずつ減らしていく / 試行は2000回 + epsが0.5くらいのときにめでたくゴール" 2019
  • 感想「深層強化学習による東方AI」 – @knok blog

    能登さんが発行された技術同人誌、「深層強化学習による東方AI」のダウンロード版を入手したので読みました。BoothとGumroadで販売されているおり、特に理由はありませんがGumroadで購入しました。 第13回 博麗神社例大祭で頒布した『深層強化学習による東方AI』のダウンロード版をBooth https://t.co/ZysBlu7LY4 およびGumroad https://t.co/HtgRa44sr6 にて販売しています. pic.twitter.com/7rDT2qG9uq — 何もわからん (@ntddk) 2016年5月8日 東方紺珠伝というシューティングゲームを、深層機械学習によってクリアさせようというものです。 この種の話でまず思い浮かぶのが、八重樫さんによるvArashiです。Linux Conference 2002にて発表された資料(PDF)もあります。今にな

    sh19910711
    sh19910711 2024/05/09
    "大昔のログインで実際にシューティングプレイヤーへアイトラッキングデバイスを装着させた記事があった / 不慣れなプレイヤーは主に自機を中心に見ているが、上級プレイヤーは自機の少し先を見ている傾向" 2016
  • 【Unity ML-Agents】 Self-Play Reinforcement Learningで対戦ゲームのAIを作ってみた - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? はじめに Atari 2600 Gamesの攻略を発端として有名となった強化学習ですが,ここ数年で プレイヤーが複数人いるゲームのための強化学習の研究も盛んに行われています.Self-Play Reinforcement Learning (Self-Play RL) はマルチプレイのゲームの学習にしばしば用いられる学習方法であり,囲碁やDota 2のAI開発に使われたことで注目を浴びました. 今回は,Unityによる自作の対戦ゲームAIをSelf-Play RLによって作成してみようと思います. Self-Play Reinforc

    【Unity ML-Agents】 Self-Play Reinforcement Learningで対戦ゲームのAIを作ってみた - Qiita
    sh19910711
    sh19910711 2024/05/06
    "Self-Play RL: 自身の戦略のコピーを作成し,それを相手として学習をすすめる / Firoiu: 大乱闘スマッシュブラザーズDXにおいてトップランカーに匹敵" arXiv:1702.06230 2019
  • コンピュータ将棋でDeep Learningごっこしてみたまとめ - Qiita

    コンピュータ将棋を題材にdeepなニューラルネットを自作して遊んでみた結果得られたノウハウのメモ。 Deep Learningはfeature engineeringしてくれない まあ当たり前の話ですが、「画像や囲碁にDCNNというモデルがとても効果的だった」+「DCNNへの入力は従来より雑なfeature (ほぼ生の情報やそれ+α)で大丈夫だった」というだけの話で、feature engineeringやネットワークの設計は結局のところ問題に特化して考えないといけないよね、という話。 少なくとも将棋の駒の配置だけを入力にして全結合層をたくさん並べただけでは、現実的な中間層の大きさでは全然予測性能が出ませんでした。 将棋の場合線形性が強いのでdeepである必要はあんまり無さそうに思えます。 全結合よりはDCNNの方がちょっとマシっぽいですが、それにしても3駒に匹敵するようなことにはならなそ

    コンピュータ将棋でDeep Learningごっこしてみたまとめ - Qiita
    sh19910711
    sh19910711 2024/05/03
    "深いネットワークでバイアス項無しだとだいぶ勾配が伝搬しにくくなる / 中間層のユニット数を100倍くらい増やすと、多くの場合、学習率がそのままでは大きすぎ / 学習率に限らず初期値も分散を合計1にするのがよい" 2016
  • ML-Agentsで模倣学習(GAIL)を取り入れた強化学習を行う - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 要約 コンセプト:報酬がスパースな環境だとエージェントが報酬に辿り着けず、学習が進まない・・ので模倣学習で人間が手を見せる UnityのML-Agentsで強化学習+模倣学習(GAIL)をする手順の紹介 はじめに Unityでは、ML-Agentsというライブラリを使うことで機械学習を行うことができます。ML-Agentsは特に強化学習(Reinforcement learning)を容易に行うことが可能であり、Unityエディタ上で容易に環境を構築、スクリプトで報酬の設定等を行うこともできます。 ですが、ゲームにおいて強化学習でうま

    ML-Agentsで模倣学習(GAIL)を取り入れた強化学習を行う - Qiita
    sh19910711
    sh19910711 2024/04/28
    "人間が報酬にたどり着くような行動を模倣学習でエージェントに学習させる / ML-Agentsでは現在BCとGAILの2種類の模倣学習をサポート / GAIL: デモンストレーションの数が少ない場合でも効果的 + 事前学習が可能" 2019
  • 【強化学習】DreamerV3を解説・実装 - Qiita

    この記事は自作している強化学習フレームワークの解説記事です。 前:Dreamer2 DreamerV3の概要 DreamerV3は、極めて難しいタスクとして知られる Minecraft のダイヤモンド収集タスクを初めてゼロから解いたアルゴリズムとして話題になりました。 論文での内容としては大きく以下となります。 出来るだけパラメータを固定し幅広い環境で好成績を収めた Minecraftのダイヤモンド収集タスクが実行可能な初めてのアルゴリズム モデルが大きいほど性能が良くなる事実を発見した 参考 ・Mastering Diverse Domains through World Models(論文) ・コード(github) ・Minecraftでダイヤモンド初収集!世界モデル最新手法 DreamerV3 を解説【無料記事】 さまざまな環境への適応とMinecraftのタスク 以下の図は様々な

    【強化学習】DreamerV3を解説・実装 - Qiita
    sh19910711
    sh19910711 2024/04/17
    "DreamerV3: Minecraftのダイヤモンド収集タスクが実行可能 / V2では1エピソードにDummyステップを挿入して同じ長さにし、バッチ長毎に学習 / V3ではエピソードをまたいでバッチを作成 + 区切りではRNNの隠れ状態を初期化"
  • 対戦パズルゲーム「ゴドマチ」で理解する組み合わせゲーム理論とグランディ数 - アジマティクス

    チェスも、将棋も、囲碁も、コンピューターが人間に勝利して久しいですが、「コンピューター」つまり「計算機」というからには、それぞれのゲームに対して何らかの「計算」をして、一つ一つの手を指しているわけです。 メディアではよくコンピューター将棋などについて華々しく紹介されるけれども、じゃあ実際にそれらがどういう計算をしているのか?ということについては何も知らないという人がほとんどじゃないかと思います。 今回はそんなゲームのコンピューター対戦につながる初歩の初歩、ゲームを「計算する」とはどういうことなのか、というお話です。 この記事は、「数学ゲーム Advent Calendar 2018」20日目の記事です。 ゴドマチ 「ゴドマチ」という対戦パズルゲームがあります。略さず言うと「合同を待ちながら」。はい。そういうことです。 考案者の方によるルール解説はこちら↓ j344.exblog.jp ゴド

    対戦パズルゲーム「ゴドマチ」で理解する組み合わせゲーム理論とグランディ数 - アジマティクス
    sh19910711
    sh19910711 2024/04/05
    "ゴドマチ: 正規形ゲームであり、不偏ゲームであり、二人零和有限確定完全情報ゲーム / 組み合わせゲーム: 数あるゲームの中でも特に分析しやすく、それ故に特に研究が進んでいる" 2018
  • KerasでQ学習 - Qiita

    KerasでQ学習してみました。今回は畳み込みをしない全結合のニューラル・ネットワークを利用して学習しています。こんな感じ。 Q学習を手軽に試すことの出来るレポジトリが公開されています。 farizrahman4u/qlearning4k - GitHub こちらを一部改変してみました。ゲームのグリッドサイズを8x8サイズに変更し、学習モデルを保存・再生出来るようにしています。ゲームの実行画面はmatplotlibのアニメーションメソッドを利用して可視化出来るようにしてみました。 サンプルは以下のレポジトリにあります。 PonDad/qgakusyuu4k - GitHub train_catch.pyで学習後play_catch.pyで実行することが出来ます。さて、中身をみていきます。 環境 Python 3.5.2 tensorflow(0.12.0) GPU keras(1.2.1)

    KerasでQ学習 - Qiita
    sh19910711
    sh19910711 2024/03/23
    "8x8のグリッドサイズの画面で、落ちてくる果物をカゴでキャッチする / 1000回学習した後、100%キャッチ出来る / 「報酬」を得た「ゲーム画面の配列」のみを抽出して学習させる" farizrahman4u/qlearning4k 2017
  • 強化学習で目指すF-ZERO王者(前編) - Qiita

    できたもの(途中経過) F-ZEROのコースをsegmentationする深層学習モデルをJetson Nano上で動かしています.480x288,30FPSで処理できています. Realtime "F-ZERO" course segmentation model is running on Jetson Nano. It is part of "gaming AI making challenge" as my personal work.#jetson #nvidia pic.twitter.com/AYCqE75JbG — nobu_e753 (@nobu_e753) September 27, 2019 キャプチャしたものはこちら(キャプチャの過程で負荷がかかり,レートが落ちています) Realtime "F-ZERO" course segmentation model is

    強化学習で目指すF-ZERO王者(前編) - Qiita
    sh19910711
    sh19910711 2024/03/20
    "強化学習: 馴染みのないゲームが題材にされていることが多い / F-ZEROについてはいくつも先行事例 / ゲーム機実機を組み込んだ構成 / ezcap 261: Linuxに対応 + Jetson Nanoに接続しcv2.VideoCapture()をたたく" 2019