タグ

関連タグで絞り込む (0)

  • 関連タグはありません

タグの絞り込みを解除

*algorithmとrlと*gameに関するsh19910711のブックマーク (11)

  • スイカゲームを強化学習で攻略したい(環境構築編) - ABEJA Tech Blog

    はじめに ハードウェアの準備 Arduino の準備 Switch -> PC 環境の実装 stepメソッド 状態の遷移 報酬 を計算する 終了判定 reset メソッド ゲームのリトライ 自動プレイのテスト はじめに ABEJAでデータサイエンティストをしている清田です。今回は強化学習で何かゲームの学習をやってみたいと考え、その題材としてスイカゲームを扱えるようにしました。「強化学習で攻略したい」と銘打っているのですが、この記事で扱うのはその準備までです。 スイカゲームは Nintendo Switch (以下 Switch)用ゲームとして発売された落ち物パズルゲームです。箱の中に果物を落としていき、同じ種類の果物同士を接触させると合わさって一段階上の果物に変化します。より上位の果物を作るほど高い点数が得られます。箱から果物が飛び出してしまうとゲームオーバーです。2048 パズル + 落

    スイカゲームを強化学習で攻略したい(環境構築編) - ABEJA Tech Blog
    sh19910711
    sh19910711 2025/09/01
    2024 / "Switch に Aruduino をNintendo Switch Pro コントローラー(プロコン)として認識させる / シリアル出力を Switch への出力に変換するやつ / 映像出力をキャプチャーボード(AverMedia 2Plus)を用いてPCに出力"
  • 強化学習のマンカラ環境を作った話 - マルチエージェントRLライブラリ概観

    初めに この記事は強化学習アドベントカレンダー 2021の記事として書かれたものです. 初めまして,qqhann です.筑波大で修士をしており,修了の瀬戸際です. 強化学習若手の会を知ったのは今年の初め頃だったと思います.Slack コミュニティに参加し,勉強会に参加してたまに質問させていただいたり,共有された記事を読んだりして,いつもためになっています.最近では,ゼロから作る Deep Learning 4 のオープンレビューをそこで知り,通読させていただきました.レビューするつもりで文章を読むと集中力が違うからか,理解も進むように感じますね.強化学習若手の会にせっかく参加しているので,そこでもいつまでも読み専門というのも良くないなと思い,記事を書くことにしました.初めての Zenn 記事でもあります. 今年の前半に,強化学習を動かせるマンカラ環境を作成し,公開しました. 当時は Ope

    強化学習のマンカラ環境を作った話 - マルチエージェントRLライブラリ概観
    sh19910711
    sh19910711 2025/05/17
    2021 / "EFG: 全ての状態は木のノード + 行動をすることで枝分かれ + 探索による古典的アルゴリズムと相性がいい / OpenSpiel: EFG のパラダイムに則ったライブラリ"
  • A3Cでテトリスを強化学習させてみた (失敗例その1) - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 強化学習が流行っている昨今、自分も何か勉強せねばと思い、テトリスを強化学習で解かせてみることにしました。 強化学習というと、少し前に流行ったDQN、その後続いた研究成果の集大成であるA3Cの2種類が今まず学ぶべきものだろうということで、その2つを試しています。ただ、DQNではお話にならないくらい性能が出なかったのでわざわざ記事にはせず、思い出の中にしまいこみました。 一方、A3Cの方は多少「それっぽい」挙動を示し始めています。タイトルに「失敗例」としている通り、全然満足なレベルには到達していません。それでも、うちの曰く「何か考えている

    A3Cでテトリスを強化学習させてみた (失敗例その1) - Qiita
    sh19910711
    sh19910711 2024/10/13
    "妻曰く「何か考えている様子は見られる」と一定の評価 / Optimizer=Adamが多くのケースで最強というのはよく知られています。強化学習の場合でも、同じく非常によい性能を持つ" '17
  • カードゲームの強化学習 - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? はじめに よく知られる碁の強化学習は「Alpha Go」があり、将棋やチェスにも対応した強化学習は「AlphaZero」とか「MuZero」がある。 オセロAIDeepLearning的立ち位置からやられる事がある。(評価関数的AIの場合もある) ポーカー(テキサスホールデム)の強化学習は「Pluribus」、麻雀の強化学習は「Suphx」がある。 一方、コンピュータゲームではAtari(70,80年代のビデオゲーム機)のゲームをやるモデルに「Agent57」、「MuZero」、「R2D2」等がある。また、マリオの強化学習としてDQN

    カードゲームの強化学習 - Qiita
    sh19910711
    sh19910711 2024/05/13
    "マリオだと入力データが(4,84,84)なのでstrideで画像サイズを減らして演算量を減らすメリットがある / 6種類のカードから成る簡単な環境であればDQN学習でもカードゲームのプレイが出来ているように見える" 2023
  • 強化学習でスーパーマリオをクリアする - Qiita

    https://vigne-cla.com/3-4/ の記事によると人口知能の学習に使えるスーパーマリオの環境は Kautenjaさんが作成したgym_super_mario_brosと ppaquetteさんが作成したppaquette_gym_super_mario がある。 ここではppaquette_gym_super_marioを使用している https://qiita.com/tsunaki/items/ec2556dc147c6d263b9d のコードを使用させていただき、スーパーマリオの強化学習を進めていきます。 (tsunaki様、こちらのページありがとうございます) 基情報 環境はgymをベースにしている。 gymの情報: https://github.com/openai/gym/blob/master/README.rst 画面データはもともと256x224でre

    強化学習でスーパーマリオをクリアする - Qiita
    sh19910711
    sh19910711 2024/05/09
    "ppaquette_gym_super_mario: 環境はgymをベース + 画面を縦13個、横16個のtileという単位に直して処理している / 試行ごとにランダムの割合epsを1から少しずつ減らしていく / 試行は2000回 + epsが0.5くらいのときにめでたくゴール" 2019
  • 感想「深層強化学習による東方AI」 – @knok blog

    能登さんが発行された技術同人誌、「深層強化学習による東方AI」のダウンロード版を入手したので読みました。BoothとGumroadで販売されているおり、特に理由はありませんがGumroadで購入しました。 第13回 博麗神社例大祭で頒布した『深層強化学習による東方AI』のダウンロード版をBooth https://t.co/ZysBlu7LY4 およびGumroad https://t.co/HtgRa44sr6 にて販売しています. pic.twitter.com/7rDT2qG9uq — 何もわからん (@ntddk) 2016年5月8日 東方紺珠伝というシューティングゲームを、深層機械学習によってクリアさせようというものです。 この種の話でまず思い浮かぶのが、八重樫さんによるvArashiです。Linux Conference 2002にて発表された資料(PDF)もあります。今にな

    sh19910711
    sh19910711 2024/05/09
    "大昔のログインで実際にシューティングプレイヤーへアイトラッキングデバイスを装着させた記事があった / 不慣れなプレイヤーは主に自機を中心に見ているが、上級プレイヤーは自機の少し先を見ている傾向" 2016
  • 【Unity ML-Agents】 Self-Play Reinforcement Learningで対戦ゲームのAIを作ってみた - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? はじめに Atari 2600 Gamesの攻略を発端として有名となった強化学習ですが,ここ数年で プレイヤーが複数人いるゲームのための強化学習の研究も盛んに行われています.Self-Play Reinforcement Learning (Self-Play RL) はマルチプレイのゲームの学習にしばしば用いられる学習方法であり,囲碁やDota 2のAI開発に使われたことで注目を浴びました. 今回は,Unityによる自作の対戦ゲームAIをSelf-Play RLによって作成してみようと思います. Self-Play Reinforc

    【Unity ML-Agents】 Self-Play Reinforcement Learningで対戦ゲームのAIを作ってみた - Qiita
    sh19910711
    sh19910711 2024/05/06
    "Self-Play RL: 自身の戦略のコピーを作成し,それを相手として学習をすすめる / Firoiu: 大乱闘スマッシュブラザーズDXにおいてトップランカーに匹敵" arXiv:1702.06230 2019
  • ML-Agentsで模倣学習(GAIL)を取り入れた強化学習を行う - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 要約 コンセプト:報酬がスパースな環境だとエージェントが報酬に辿り着けず、学習が進まない・・ので模倣学習で人間が手を見せる UnityのML-Agentsで強化学習+模倣学習(GAIL)をする手順の紹介 はじめに Unityでは、ML-Agentsというライブラリを使うことで機械学習を行うことができます。ML-Agentsは特に強化学習(Reinforcement learning)を容易に行うことが可能であり、Unityエディタ上で容易に環境を構築、スクリプトで報酬の設定等を行うこともできます。 ですが、ゲームにおいて強化学習でうま

    ML-Agentsで模倣学習(GAIL)を取り入れた強化学習を行う - Qiita
    sh19910711
    sh19910711 2024/04/28
    "人間が報酬にたどり着くような行動を模倣学習でエージェントに学習させる / ML-Agentsでは現在BCとGAILの2種類の模倣学習をサポート / GAIL: デモンストレーションの数が少ない場合でも効果的 + 事前学習が可能" 2019
  • 【強化学習】DreamerV3を解説・実装 - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? この記事は自作している強化学習フレームワークの解説記事です。 前:Dreamer2 次:DIAMOND DreamerV3の概要 DreamerV3は、極めて難しいタスクとして知られる Minecraft のダイヤモンド収集タスクを初めてゼロから解いたアルゴリズムとして話題になりました。 論文での内容としては大きく以下となります。 出来るだけパラメータを固定し幅広い環境で好成績を収めた Minecraftのダイヤモンド収集タスクが実行可能な初めてのアルゴリズム モデルが大きいほど性能が良くなる事実を発見した 参考 ・Mastering

    【強化学習】DreamerV3を解説・実装 - Qiita
    sh19910711
    sh19910711 2024/04/17
    "DreamerV3: Minecraftのダイヤモンド収集タスクが実行可能 / V2では1エピソードにDummyステップを挿入して同じ長さにし、バッチ長毎に学習 / V3ではエピソードをまたいでバッチを作成 + 区切りではRNNの隠れ状態を初期化"
  • KerasでQ学習 - Qiita

    KerasでQ学習してみました。今回は畳み込みをしない全結合のニューラル・ネットワークを利用して学習しています。こんな感じ。 Q学習を手軽に試すことの出来るレポジトリが公開されています。 farizrahman4u/qlearning4k - GitHub こちらを一部改変してみました。ゲームのグリッドサイズを8x8サイズに変更し、学習モデルを保存・再生出来るようにしています。ゲームの実行画面はmatplotlibのアニメーションメソッドを利用して可視化出来るようにしてみました。 サンプルは以下のレポジトリにあります。 PonDad/qgakusyuu4k - GitHub train_catch.pyで学習後play_catch.pyで実行することが出来ます。さて、中身をみていきます。 環境 Python 3.5.2 tensorflow(0.12.0) GPU keras(1.2.1)

    KerasでQ学習 - Qiita
    sh19910711
    sh19910711 2024/03/23
    "8x8のグリッドサイズの画面で、落ちてくる果物をカゴでキャッチする / 1000回学習した後、100%キャッチ出来る / 「報酬」を得た「ゲーム画面の配列」のみを抽出して学習させる" farizrahman4u/qlearning4k 2017
  • 深層強化学習を用いた一人麻雀AIを作ってみた - Paoの技術力を磨くブログ

    最近はブロックチェーンまわりばかりだったが、 前々からやっていた麻雀AIの強化学習について一旦まとめておく。 麻雀好きの人から機械学習興味ある人まで読めるよう書いたみたけど、どうでもいいとこは飛ばしながら、分からないとこあれば気軽にコメントください。 概要 一人麻雀AIを深層強化学習で作ってみた 自分が持っている牌すら選択できない状況から、ある程度有望そうな牌を選べるところまで学習した 最終的には、18順の一人麻雀でテンパイ率60%弱までになった ただ、他の手法に比べるとかなり弱く、まだまだこれからといった感じ 背景 麻雀AIでは、「どの牌を切るか?」「鳴くべきか?」「リーチすべきか?」など多くの判断が必要だが、 その中で基となるのは「どの牌を切るか?」といった部分であり、点棒状況や相手の手を考慮しないシンプルなものを一人麻雀という。 ※ここでいう一人麻雀は副露しないものとして以降扱い

    深層強化学習を用いた一人麻雀AIを作ってみた - Paoの技術力を磨くブログ
    sh19910711
    sh19910711 2022/07/18
    2018 / "一人麻雀のAI: 自分が持っている牌すら選択できない状況から、ある程度有望そうな牌を選べるところまで / AlphaGOでも強化学習結果をそのまま使うのではなく、その結果をモンテカルロ木探索の中で"
  • 1