[B! 強化学習] katz1955のブックマーク

強化学習「理論」入門

2022年度 TopSE「機械学習概論」コースの一部として使用した講義資料です。 https://www.topse.jp/ja/curriculum-lectures.html

katz1955 2022/10/10

強化学習

リンク

この記事は自作している強化学習フレームワーク SimpleDistributedRL の解説記事です。前：AlphaZero 次：Stochastic MuZero 今回はAlphaZeroの後継であるMuZeroについて解説します。 MuZero AlphaZeroは木探索時にゲームのルールを使うという問題がありました。（1手進めた後、盤面の状態を知る必要がある）これではルールを知っている環境にしかAlphaZeroが使えないので、強化学習で一般的に想定されるマルコフ決定過程(MDP)の環境にも使えるように拡張したアルゴリズムがMuZeroです。（以降本記事で環境を区別する場合、マルコフ決定過程(MDP)の環境をAtari環境、囲碁や将棋などをボードゲーム環境と言って区別します） MuZeroではゲームのルール自体を学習する事で、ゲームのルールが不明なMDP環境下でも学習を可能に

katz1955 2022/10/07

強化学習

リンク

［CEDEC 2022］「桃鉄」と「パワサカ」に見る，強化学習AIの活用事例。ゲームデザイン分析とゲームバランス調整の実態を，実例を交えて紹介

［CEDEC 2022］「桃鉄」と「パワサカ」に見る，強化学習AIの活用事例。ゲームデザイン分析とゲームバランス調整の実態を，実例を交えて紹介ライター：大陸新秩序 2022年8月24日，ゲーム開発者向けカンファレンス「CEDEC 2022」にて，「強化学習AIを活用してゲームデザインを！：『桃太郎電鉄〜昭和平成令和も定番！〜』『実況パワフルサッカー』」と題されたセッションが開催された。本セッションには，コナミデジタルエンタテインメント技術開発部主査の岩倉宏介氏と第三制作部プログラマーの池畑望氏，技術開発部プログラマーの宗政俊一氏の3名が登壇。ゲームデザイン分析および運営型ゲームのバランス調整に強化学習AIを活用した事例の紹介が行われたので，その内容を紹介しよう。本セッションにおける強化学習とはまずセッションの冒頭では，AIの強化学習の解説が行われた。強化学習では，AIがゲー

katz1955 2022/10/07

強化学習

リンク

【強化学習編】機械学習/ディープラーニングのおすすめ論文30選 | スキルアップAI Journal

はじめに今回は強化学習編として、Transf ormer/BERTの発展モデルや新たな学習法・正則化方法の提案に関する内容などの最新論文を7本ご紹介します！著者実装が公開されているものは、その情報も併せてまとめました。論文は自動機械学習（AutoML）を専門としICMLなどのトップカンファレンスへの論文採択経験もある斉藤と、需要予測・異常検知など様々な分野で機械学習/ディープラーニングの産業応用に取り組んできた小縣が中心となってスキルアップAI講師陣にて厳選しました。ぜひ、今後の学びにご活用ください！また、おすすめの論文30選をまとめている下記の記事も合わせてご覧ください。 CoBERL: Contrastive BERT for Reinforcement Learning 実装のURL：https://github.com/deepmind/dm_control 強化学習における新た

katz1955 2022/10/07

強化学習

リンク

keras 使って DQN で迷路を解いてみた - mizchi's blog

世界観をつかめるぐらいには機械学習やっておきたいと思い、とりあえず何かしらのお題がないと興味が続かなさそうなので、二次元の盤面上で何かしらの行動をする、ローグライクのモンスターのエージェントを作るのを目標にしようと思う。自分がゲーム作るとき、大抵エージェントのルール作る段階で飽きてくるので。今回の記事は、迷路を解くところまで。学習資料 [Python]強化学習(DQN)を実装しながらKerasに慣れる - Qiita DQNをKerasとTensorFlowとOpenAI Gymで実装する全力で人工知能に対決を挑んでみた（理論編） - ニコニコ動画雰囲気を掴むのに、ニコ動の解説動画わかりやすかった。よく使われてる OpenAI Gym 、見た目は派手だが、環境変数が多すぎていまいち理解の助けにならない + 次元が多すぎて収束が遠いので、すごい単純なゲームルールを自分で作って、それ

katz1955 2021/01/19

強化学習

リンク

【深層強化学習,入門】Deep Q Network(DQN)の解説とPythonで実装　〜図を使って説明〜

katz1955 2021/01/19

強化学習

リンク

[Python]強化学習(DQN)を実装しながらKerasに慣れる - Qiita

はじめにこの記事はいまさらながらに強化学習(DQN)の実装をKerasを使って進めつつ，目的関数のカスタマイズやoptimizerの追加，複数入力など，ちょっとアルゴリズムに手を加えようとした時にハマった点を備忘録として残したものです．そのため，DQNの解説記事というよりも初心者向けKerasTipsになります．実行環境 Python3.5.2 Keras 1.2.1 tensorflow 0.12.1 DQNとは DQN(DeepQNetwork)がDeepMindから発表されて2年以上経つので，もはやいたる所に解説記事や実装サンプルがあり，ここでの詳しい解説は不要だと思います．が，ざっくり言うと，Q-Learningという強化学習手法のQ関数部分を，深層学習により近似することで、動画像から直接Q値を推定することを可能にした学習手法です． DQNの理論としてはゼロからDeepまで学