[B! 強化学習] lyiaseのブックマーク

lyiase id:lyiase

強化学習に関するlyiaseのブックマーク (9)

ゲームAI、メタバース、スマートシティ
ゲーム AI、メタバース、スマートシティについて解説します。
lyiase 2023/06/07
あとで読む

機械学習

強化学習

ゲーム

AI

深層学習
リンク
2017年のディープラーニング論文100選 - Qiita
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? これはFujitsu Advent Calendar 2017の18日目の記事です。掲載内容は富士通グループを代表するものではありません。ただし、これまでの取り組みが評価されて、富士通がQiitaに正式参加することになりました[リンク]。なお、内容の正確性には注意を払っていますが、無保証です。はじめにこの記事では今年発表されたディープラーニング論文（ArXivでの発表時期、発表された国際会議が2017年開催またはジャーナル掲載が2017年のもの）から私が個人的に重要だと思った論文を収集しています。また、2016年末ごろの論文も重要
lyiase 2017/12/19
毎年恒例ありがたい、DNN論文リンク集。富士通にもこんな人がいるんだな…って思うと同時に「富士通と関係なくね？」感もあふれる記事に感謝。

機械学習

論文

強化学習

Deep Learning
リンク
これさえ読めばすぐに理解できる強化学習の導入と実践
強化学習の位置づけ教師あり学習教師なし学習強化学習強化学習の応用事例 Atariの攻略 Alpha Go ロボットの自動動作獲得ファイナンスへの応用広告配信の最適化 OpenAI Gymを使ってQ-learningを実装してみる状態行動報酬実装参考文献ディープラーニングなどの機械学習技術の進歩によって、過去のデータから学習する技術は大きく進化し、写真の中に写っている対象を認識することや病気の診断、多言語間の翻訳をする性能を著しく向上させることができました。すでにその性能は専門的な教育を受けた人間の能力と同等 [1] か超えている分野もあるほどです。一方で、人間にはデータを与えなくとも自ら経験から学び、スキルを上達させることができます。特に何も教えられなくとも、経験からゲームを攻略することやロボットの正しい動作の仕方を学んでいくことができます。機械学習の中でも、こ
lyiase 2017/11/17
強化学習

機械学習

人工知能
リンク
dfltweb1.onamae.com – このドメインはお名前.comで取得されています。
このドメインはお名前.com から取得されました。お名前.com は GMOインターネットグループ(株) が運営する国内シェアNo.1のドメイン登録サービスです。 ※表示価格は、全て税込です。 ※サービス品質維持のため、一時的に対象となる料金へ一定割合の「サービス維持調整費」を加算させていただきます。 ※1 「国内シェア」は、ICANN(インターネットのドメイン名などの資源を管理する非営利団体)の公表数値をもとに集計。gTLDが集計の対象。日本のドメイン登録業者(レジストラ)（「ICANNがレジストラとして認定した企業」一覧（InterNIC提供）内に「Japan」の記載があるもの）を対象。レジストラ「GMO Internet Group, Inc. d/b/a Onamae.com」のシェア値を集計。 2023年5月時点の調査。
lyiase 2017/11/17
強化学習

Deep Learning

人工知能
リンク
DQNでのReplay Memory圧縮効果 - Itsukaraの日記
下記でDeepMindのDQN再現コードを試行した話を書きましたが、当方のマシンではメモリが16GBしかないため、Replay Memoryが0.4M個に制限されていました。そこで、試しにReplay Memoryをメモリ上で圧縮する処理を入れてみたところ、Replay Memory用のメモリサイズが1/40以下に減りました。性能低下は16%程度です。これならば計算上は16M個まで保管できそうです。 itsukara.hateblo.jp ただ、A3Cと較べてDQNは学習に時間が掛かり、Replay Memory圧縮で更に遅くなるため、Replay Memoryを16M個貯めるだけで54時間掛かりそうです。しかも、Deep Mindの論文と同じ程度の効果を出すには80M stepsも学習させなければならず、これには270時間以上掛かりそうです。そのため、実際に試す予定はありません。ただ、
lyiase 2017/11/12
Deep Learning

DeepMind

強化学習
リンク
Introduction to Prioritized Experience Replay
The document summarizes recent research related to "theory of mind" in multi-agent reinforcement learning. It discusses three papers that propose methods for agents to infer the intentions of other agents by applying concepts from theory of mind: 1. The papers propose that in multi-agent reinforcement learning, being able to understand the intentions of other agents could help with cooperation and
lyiase 2017/11/12
強化学習

Deep Learning
リンク
DQNをKerasとTensorFlowとOpenAI Gymで実装する
はじめに少し時代遅れかもしれませんが、強化学習の手法のひとつであるDQNをDeepMindの論文Mnih et al., 2015, Human-level control through deep reinforcement learningを参考にしながら、KerasとTensorFlowとOpenAI Gymを使って実装します。前半では軽くDQNのおさらいをしますが、少しの強化学習の知識を持っていることを前提にしています。すでにいくつか良記事が出ているので紹介したいと思います。合わせて読むと理解の助けになると思うので、是非参考にしてみてください。 DQNの生い立ち　＋　Deep Q-NetworkをChainerで書いた DQNが生まれた背景について説明してくれています。Chainerでの実装もあるそうです。ゼロからDeepまで学ぶ強化学習タイトルの通り、ゼロからDeepま
lyiase 2017/11/02
Deep Learning

機械学習

強化学習

人工知能
リンク
33122
Google「DeepMind」、コンピュータが人型ベースでB地点にたどり着く最善の方法（柔軟な動き）を独学で生成する強化学習を用いたアプローチを提案した論文を発表 2017-07-11 GoogleのAIを研究する子会社「DeepMind」は、強化学習で人型含めシミュレートされた環境の中で複雑で柔軟な動きを生成するアプローチを提案した論文を公開しました。 Emergence of Locomotion Behaviours in Rich Environments（PDF）これら動きは、コンピュータが独学で最善の方法として考案した行動です。研究者は、エージェントに動きのセットと前進するインセンティブを与え、AからB地点にたどり着く最善の方法を生み出すための強化学習を仕込みます。コンピュータは、今ある動作を使って試行錯誤を繰り返し、さまざまな動き方を思いつく中で次々と最善へ近づけてい
lyiase 2017/07/11
強化学習

論文

Google

機械学習

人工知能

Deep Learning
リンク
Reinforcement learning with unsupervised auxiliary tasks | DeepMind
Research Reinforcement learning with unsupervised auxiliary tasks Published 17 November 2016 Authors Max Jaderberg, Vlad Mnih, Wojciech Marian Czarnecki Our primary mission at DeepMind is to push the boundaries of AI, developing programs that can learn to solve any complex probl em without needing to be taught how. Our reinforcement learning agents have achieved breakthroughs in Atari 2600 games an
lyiase 2016/12/07
DeepMind

強化学習

Google

機械学習
リンク
1