タグ

*algorithmとrlに関するsh19910711のブックマーク (46)

  • Deep Q-Network 論文輪読会

    1. The document discusses implicit behavioral cloning, which was presented in a 2021 Conference on Robot Learning (CoRL) paper. 2. Implicit behavioral cloning uses an implicit model rather than an explicit model to map observations to actions. The implicit model is trained using an InfoNCE loss function to discriminate positive observation-action pairs from negatively sampled pairs. 3. Experiments

    Deep Q-Network 論文輪読会
    sh19910711
    sh19910711 2025/05/20
    2016 / "Q,Vがわかれば、ある状態でどんな行動が最良なのかがわかる + でもQ,Vは自明ではない + Q,Vをなんとかしてもとめるのが強化学習 / TD学習: モンテカルロ法+DP"
  • 強化学習のマンカラ環境を作った話 - マルチエージェントRLライブラリ概観

    初めに この記事は強化学習アドベントカレンダー 2021の記事として書かれたものです. 初めまして,qqhann です.筑波大で修士をしており,修了の瀬戸際です. 強化学習若手の会を知ったのは今年の初め頃だったと思います.Slack コミュニティに参加し,勉強会に参加してたまに質問させていただいたり,共有された記事を読んだりして,いつもためになっています.最近では,ゼロから作る Deep Learning 4 のオープンレビューをそこで知り,通読させていただきました.レビューするつもりで文章を読むと集中力が違うからか,理解も進むように感じますね.強化学習若手の会にせっかく参加しているので,そこでもいつまでも読み専門というのも良くないなと思い,記事を書くことにしました.初めての Zenn 記事でもあります. 今年の前半に,強化学習を動かせるマンカラ環境を作成し,公開しました. 当時は Ope

    強化学習のマンカラ環境を作った話 - マルチエージェントRLライブラリ概観
    sh19910711
    sh19910711 2025/05/17
    2021 / "EFG: 全ての状態は木のノード + 行動をすることで枝分かれ + 探索による古典的アルゴリズムと相性がいい / OpenSpiel: EFG のパラダイムに則ったライブラリ"
  • Deep Reinforcement Learning: Pong from Pixels - Reinforcement Learning(強化学習)勉強メモ - higepon blog

    http://karpathy.github.io/2016/05/31/rl/ 入門から実践までカバーしていて大変よい。日語訳は https://postd.cc/deep-reinforcement-learning-pong-from-pixels-1/ にある。 Actions は Pong のゲームのバーを Up or Down する。 Reward はボールを相手のバーの向こうに飛ばせたら +1、自分がミスしたら -1。それ以外は 0 とする。 入力は 210x160x3 の image frame をプリプロセスしたもの。(前後のフレームの差にするとか) Agent は入力とRewardしか知らない。ゲームのルールやコツを知らない。 Policy Network 2層のNN。bias なし。 1層目がゲームの状況(ボールが上の方にあるとか、バーが真ん中にいるとか) 2層目が

    Deep Reinforcement Learning: Pong from Pixels - Reinforcement Learning(強化学習)勉強メモ - higepon blog
    sh19910711
    sh19910711 2025/05/17
    2018 / "Policy Gradient: Label y が分からない > モデルからサンプリングする + 現時点では正解かどうかはわからない / 分からないなら、正解がわかるまでまとう"
  • 【強化学習】Experience Replay の研究の傾向とその考察

    この記事は強化学習 Advent Calendar 2021の12/11の記事です。 0. はじめに 強化学習は(一般的には)学習に必要なデータをプログラム自身が能動的に探索する必要があります。そのため、深層学習のネットワークの大きさや形状だけでなく、探索・学習の方法などロジック全体が重要です。気をつけるべき点や工夫できる点が多岐に渡るため、非常に難しいと同時にとてもおもしろいろ感じています。 この記事では、私が興味を持ってライブラリを開発したり、定期的に(?)記事を書いたりしているExperience Replay (経験再生) について、個人的に感じている近年の研究のポイントについて書こうと思います。 1. Experience Replay研究の着目点 強化学習(のoff-policyな手法)では、遷移 (一般には(s_t, a_t, r_t, s_{t+1}, d_t)の組)をRe

    【強化学習】Experience Replay の研究の傾向とその考察
    sh19910711
    sh19910711 2025/05/15
    2021 / "Experience Replay: 遷移をReplay Bufferに保存しておき、後から『ランダム』に取り出してニューラルネットワーク等のポリシーを学習させることで、サンプル効率を高める"
  • Connect Fourをちゃんと強化学習できた話 - threecourse’s blog

    アルファ碁ゼロの手法で、Connect FourというゲームAIを強化学習で作成させてみました。 Connect Fourは、「重力付き四目並べ」のようなゲームです。(四目並べ - Wikipedia) そこまで探索空間が大きすぎず、またソルバーもあるため、強化学習が正しくできるかのテスト用としては妥当なゲームでしょう。なお、正しく打てば先手必勝です。 参考文献の「AlphaGo Zeroの手法でリバーシの強化学習をやってみる」のコードをforkしたものを元に作成しました。 Connect Four用に直し、自分の好みで構造を整理しています。 コードは以下にアップロードしました。細かい工夫がたくさんあり複雑な割には分かりやすくなったはず・・ github.com 学習結果 環境: OS: Ubuntu 18.04, CPU: Core i9-9900K, RAM: 32GB, GPU:

    Connect Fourをちゃんと強化学習できた話 - threecourse’s blog
    sh19910711
    sh19910711 2025/05/11
    2020 / "Connect Four: 「重力付き四目並べ」のようなゲーム / 自己対戦ワーカーと学習ワーカーを作成し、それぞれのプロセスを常に動かしておく / 生成された学習データをウォッチし、十分に溜まっていればモデルの学習"
  • 逆強化学習を理解するための強化学習の基礎 - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 1. はじめに 逆強化学習の手法についてはこちらを御覧ください。記事では逆強化学習の手法については解説していません。 逆強化学習は、エキスパートの行動から報酬を推定する手法です。例として下図のようなことを実現することが可能になります。 (K.Kitani, et al., 2012, Activity Forecasting, ECCV) この例では、逆強化学習によって人の行動の報酬を推定し、経路予測をしています。 一般的に、強化学習ではエージェントが環境から報酬を得ることで最適な行動を学習します。エージェントは環境に行動という形で働

    逆強化学習を理解するための強化学習の基礎 - Qiita
    sh19910711
    sh19910711 2025/04/23
    2018 / "強化学習: 報酬をはっきりと定義することが難しい / 逆強化学習では、エキスパートの行動から報酬を推定 / 「上手な運転」自体は優秀なドライバーの運転を記録することでその行動履歴を知ることができ"
  • 【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representations

    sh19910711
    sh19910711 2025/04/20
    2021 / "Self-Predictive Representations (SPR): Kステップ後の表現を予測できるように学習した状態表現 + ステップごとのCosine Similarity Loss + データ拡張しなくてもSOTA"
  • これから強化学習を勉強する人のための「強化学習アルゴリズム・マップ」と、実装例まとめ - Qiita

    ※2018年06月23日追記 PyTorchを使用した最新版の内容を次の書籍にまとめました。 つくりながら学ぶ! 深層強化学習 ~PyTorchによる実践プログラミング~ 18年6月28日発売 これから強化学習を勉強したい人に向けて、「どんなアルゴリズムがあるのか」、「どの順番で勉強すれば良いのか」を示した強化学習アルゴリズムの「学習マップ」を作成しました。 さらに、各手法を実際にどう実装すれば良いのかを、簡単な例題を対象に実装しました。 記事では、ひとつずつ解説します。 オレンジ枠の手法は、実装例を紹介します。 ※今回マップを作るにあたっては、以下の文献を参考にしました。 ●速習 強化学習: 基礎理論とアルゴリズム(書籍) ●Deep Learning for Video Game Playing 強化学習とは 強化学習は、画像識別のような教師あり学習や、クラスタリングのような教師なし

    これから強化学習を勉強する人のための「強化学習アルゴリズム・マップ」と、実装例まとめ - Qiita
    sh19910711
    sh19910711 2025/02/26
    2017 / "強化学習: ゴールはあるけれど、そこにいたる詳細な制御手法は分からないときに、ゴールできたかどうかをベースに、制御手法を構築する学習手法 / 「何かの制御」や「対戦型ゲームのアルゴリズム」に使用"
  • 【強化学習】好奇心による探索RNDを改良したSNDを解説・実装してみた - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? この記事は自作している強化学習フレームワークの解説記事です。 はじめに ふと以下のAtariゲームのベンチマークを見ていたら Montezuma's Revenge でかなり高いスコアを出していたSND-Vというアルゴリズムがあったので見てみました。(Go-Exploreっていうのも興味がある) どうやらこれはAgent57でも使われていたRNDという手法を改良したアルゴリズムのようです。 SND論文: https://arxiv.org/abs/2302.11563 2023年2月にv1でv4が2024年6月と新しめの論文ですね。 S

    【強化学習】好奇心による探索RNDを改良したSNDを解説・実装してみた - Qiita
    sh19910711
    sh19910711 2024/10/13
    "強化学習の課題として報酬が疎(全く手に入らない)環境では学習が進まない / エージェントに内発的動機付けを足して探索を促そうという試み"
  • A3Cでテトリスを強化学習させてみた (失敗例その1) - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 強化学習が流行っている昨今、自分も何か勉強せねばと思い、テトリスを強化学習で解かせてみることにしました。 強化学習というと、少し前に流行ったDQN、その後続いた研究成果の集大成であるA3Cの2種類が今まず学ぶべきものだろうということで、その2つを試しています。ただ、DQNではお話にならないくらい性能が出なかったのでわざわざ記事にはせず、思い出の中にしまいこみました。 一方、A3Cの方は多少「それっぽい」挙動を示し始めています。タイトルに「失敗例」としている通り、全然満足なレベルには到達していません。それでも、うちの曰く「何か考えている

    A3Cでテトリスを強化学習させてみた (失敗例その1) - Qiita
    sh19910711
    sh19910711 2024/10/13
    "妻曰く「何か考えている様子は見られる」と一定の評価 / Optimizer=Adamが多くのケースで最強というのはよく知られています。強化学習の場合でも、同じく非常によい性能を持つ" '17
  • 【深層強化学習】Dueling Network 実装・解説

    Keras + Tensorflow で Dueling Network + DDQN を実装しました。 全体のコードをGitHubにあげておきます。 https://github.com/omurammm/rl_implementation Dueling Networkとは 論文:https://arxiv.org/pdf/1511.06581.pdf こちらの記事で詳しく説明してくださっているので参考にしてください 普通のQ-networkは図(上)のように、状態を入力として受け取り、 SeaquentialなNetworkを通して行動価値関数Q(s,a)を予測する。 それに対しDueling-networkでは図(下)のように、状態を入力として受け取り、途中で状態価値関数V(s)とAdvantage( A(s,a) = Q(s,a) - V(s) )の二つの流れに別れた後、最後に足

    【深層強化学習】Dueling Network 実装・解説
    sh19910711
    sh19910711 2024/10/12
    "Dueling Network: 途中で状態価値関数V(s)とAdvantage( A(s,a) = Q(s,a) - V(s) )の二つの流れに別れた後、最後に足し合わせることで、行動価値関数Q(s,a)を予測"
  • Neural Architecture Searchを用いて出品違反検知モデリングを高速化したお話

    Presented at MLCT #10

    Neural Architecture Searchを用いて出品違反検知モデリングを高速化したお話
    sh19910711
    sh19910711 2024/06/14
    "強化学習でRNNの重みを最適化 + 生成された子モデルのシグナルを使ってパラメータ更新 / DARTS: アーキテクチャの最適化を微分可能にすることでRNNを不要に / 月単位で行われていた開発を週単位に落とした" 2019
  • 強化学習「理論」入門

    2022年度 TopSE「機械学習概論」コースの一部として使用した講義資料です。 https://www.topse.jp/ja/curriculum-lectures.html

    強化学習「理論」入門
    sh19910711
    sh19910711 2024/06/12
    "教師なし学習: データに対する知見を得ることが主な目的 + 「正解」の定義はない / 強化学習: マルコフ決定過程として環境と報酬を定義 + 総報酬を最大化することがゴール" 2022
  • 再帰型強化学習 - Pythonと機械学習

    目次 目次 はじめに 再帰型強化学習のアルゴリズム Pythonで実装してみる 検証結果 シャープレシオの推移 過去の期間Tでの学習結果 未来の期間Tでの取引シミュレーション結果 はじめに こちらのブログで紹介されている、再帰型強化学習を使ってFXトレードをしてみるという記事が面白そうだったので試してみることにしました。 再帰型強化学習について知識はゼロですが、取り敢えずやってみるというのが大事じゃないかと思います。 強化学習とは機械学習の一種で、エージェントがアクションを起こして、そのアクションによって報酬をもらえるというような仕組みみたいで、各アクションでもらえる報酬を最大化するように学習を実施するという物らしいです。 更に再帰型なので、なんかよくわからなくてすごそうです。英語(Recurrent Reinforcement Learning)の頭文字をとってRRLと呼ばれてるみたいで

    sh19910711
    sh19910711 2024/06/10
    "𝐹𝑡は𝑡より前の𝑀個の各時刻の価格変動𝑟𝑡と一つ前の時刻のアクション𝐹𝑡−1に適当な重み𝑤をかけて足し合わせた後ハイパブリックタンジェントの出力 / 𝐹𝑡−1が必要なところが再帰型" 2017
  • DQN(Deep Q Network)を理解したので、Gopherくんの図を使って説明 - Qiita

    概要 強化学習のDQN(Deep Q-Network)について理解したので、ゆるくGopherくんを使って説明を試みました。 DQNは人間を打ち負かしたAlphaGoでも使われています。 強化学習は書籍もネットの記事も難解なものが多いので、なるべく図で具体的に記載しました。 強化学習とは ある状態における最適な行動を学習する、機械学習の手法の一つ。 モデル化 ゴーファーくんがケーキをべるために、最適な行動を学習することを例に考えてみます。 The Go gopher was designed by Renée French. エージェント ある環境で動くプレーヤー → ゴーファーくん 状態(status) エージェントが置かれている状況 $S=\{s_1,s_2,s_3 \cdots \}$ → どのマスにゴーファーくんがいて、どのマスにケーキがあるか? 各マスに1〜9の番号をふる ゴー

    DQN(Deep Q Network)を理解したので、Gopherくんの図を使って説明 - Qiita
    sh19910711
    sh19910711 2024/06/06
    "報酬関数: ある状態𝑠𝑡である行動𝑎𝑡をとって、𝑠𝑡+1の状態になって得られる報酬を返す / 時間割引率: 3回移動してケーキを食べられるのと、5回移動してケーキを食べられるのは前者のほうが良い" 2018
  • カードゲームの強化学習 - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? はじめに よく知られる碁の強化学習は「Alpha Go」があり、将棋やチェスにも対応した強化学習は「AlphaZero」とか「MuZero」がある。 オセロAIDeepLearning的立ち位置からやられる事がある。(評価関数的AIの場合もある) ポーカー(テキサスホールデム)の強化学習は「Pluribus」、麻雀の強化学習は「Suphx」がある。 一方、コンピュータゲームではAtari(70,80年代のビデオゲーム機)のゲームをやるモデルに「Agent57」、「MuZero」、「R2D2」等がある。また、マリオの強化学習としてDQN

    カードゲームの強化学習 - Qiita
    sh19910711
    sh19910711 2024/05/13
    "マリオだと入力データが(4,84,84)なのでstrideで画像サイズを減らして演算量を減らすメリットがある / 6種類のカードから成る簡単な環境であればDQN学習でもカードゲームのプレイが出来ているように見える" 2023
  • 強化学習でスーパーマリオをクリアする - Qiita

    https://vigne-cla.com/3-4/ の記事によると人口知能の学習に使えるスーパーマリオの環境は Kautenjaさんが作成したgym_super_mario_brosと ppaquetteさんが作成したppaquette_gym_super_mario がある。 ここではppaquette_gym_super_marioを使用している https://qiita.com/tsunaki/items/ec2556dc147c6d263b9d のコードを使用させていただき、スーパーマリオの強化学習を進めていきます。 (tsunaki様、こちらのページありがとうございます) ##基情報 環境はgymをベースにしている。 gymの情報: https://github.com/openai/gym/blob/master/README.rst 画面データはもともと256x224で

    強化学習でスーパーマリオをクリアする - Qiita
    sh19910711
    sh19910711 2024/05/09
    "ppaquette_gym_super_mario: 環境はgymをベース + 画面を縦13個、横16個のtileという単位に直して処理している / 試行ごとにランダムの割合epsを1から少しずつ減らしていく / 試行は2000回 + epsが0.5くらいのときにめでたくゴール" 2019
  • 感想「深層強化学習による東方AI」 – @knok blog

    能登さんが発行された技術同人誌、「深層強化学習による東方AI」のダウンロード版を入手したので読みました。BoothとGumroadで販売されているおり、特に理由はありませんがGumroadで購入しました。 第13回 博麗神社例大祭で頒布した『深層強化学習による東方AI』のダウンロード版をBooth https://t.co/ZysBlu7LY4 およびGumroad https://t.co/HtgRa44sr6 にて販売しています. pic.twitter.com/7rDT2qG9uq — 何もわからん (@ntddk) 2016年5月8日 東方紺珠伝というシューティングゲームを、深層機械学習によってクリアさせようというものです。 この種の話でまず思い浮かぶのが、八重樫さんによるvArashiです。Linux Conference 2002にて発表された資料(PDF)もあります。今にな

    sh19910711
    sh19910711 2024/05/09
    "大昔のログインで実際にシューティングプレイヤーへアイトラッキングデバイスを装着させた記事があった / 不慣れなプレイヤーは主に自機を中心に見ているが、上級プレイヤーは自機の少し先を見ている傾向" 2016
  • 【Unity ML-Agents】 Self-Play Reinforcement Learningで対戦ゲームのAIを作ってみた - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? はじめに Atari 2600 Gamesの攻略を発端として有名となった強化学習ですが,ここ数年で プレイヤーが複数人いるゲームのための強化学習の研究も盛んに行われています.Self-Play Reinforcement Learning (Self-Play RL) はマルチプレイのゲームの学習にしばしば用いられる学習方法であり,囲碁やDota 2のAI開発に使われたことで注目を浴びました. 今回は,Unityによる自作の対戦ゲームAIをSelf-Play RLによって作成してみようと思います. Self-Play Reinforc

    【Unity ML-Agents】 Self-Play Reinforcement Learningで対戦ゲームのAIを作ってみた - Qiita
    sh19910711
    sh19910711 2024/05/06
    "Self-Play RL: 自身の戦略のコピーを作成し,それを相手として学習をすすめる / Firoiu: 大乱闘スマッシュブラザーズDXにおいてトップランカーに匹敵" arXiv:1702.06230 2019
  • ゼロから創る tensorflow + reinforcement learningを使ったディープラーニングもどき - コンピュータ将棋 Qhapaq

    注:今回の記事は完全にプログラマ向けの解説記事です ソースコードの閲覧、ダウンロードは此方からどうぞ GitHub - qhapaq-49/tf_reinforcement: tensorflowを使った簡単(300行弱)なreinforcement learning 【今回作りたいもの】 囲碁やポーカーのAIで度々注目されているディープラーニングを使った強化学習。時代の先端を走るゲームAI開発者的には是非覚えておきたいスキルの一つです。といっても、強化学習の動作原理自体は下記の図のようにシンプルなものです。稿では下記図の流れを一通り搭載したスタンドアロンで動く強化学習ルーチンを紹介します(上述のgithubのコードを見ながら読まれることをオススメします)。 【稿で扱うゲームのルール】 稿ではニューラルネットで動く競りゲームAIを作ります。競りゲームとは ・初期所持金10のプレイヤ

    ゼロから創る tensorflow + reinforcement learningを使ったディープラーニングもどき - コンピュータ将棋 Qhapaq
    sh19910711
    sh19910711 2024/04/29
    "教師データ: ランダムムーブの対局 + 勝った方の手を良い手としてその手の採択率を上げる / 記事は沢山あるのですが、その多くはgymなどの洗練されすぎたパッケージを使っていて" 2017