[B! 強化学習] rin51のブックマーク

rin51 id:rin51

強化学習に関するrin51のブックマーク (7)

強化学習入門 Part3 － AlphaGoZeroでも重要な技術要素！モンテカルロ木探索の入門－ - Platinum Data Blog by BrainPad
強化学習入門の第3弾。「モンテカルロ木探索（Monte Carlo Tree Search, MCTS）」を解説するとともに、実際にAI同士で五目並べを戦わせてみました！こんにちは。アナリティクスサービス本部 AI開発部の山崎です。昨年も強化学習界隈は盛り上がりを見せていましたが、今なお、強化学習と言えば一番にAlpha Goを思い浮かべる人も多いのではないでしょうか。昨年、Alpha GoZeroという進化バージョンが発表され、一切のお手本を用いずに従来バージョンより強いということが話題になりました。（それまでのAlpha Goは、人のお手本をある程度学び、その後勝手に学んでいくものでした）さらに、Alpha GoZeroを一般化したアルゴリズムに修正したAlphaZeroが登場し、チェスや将棋でもその時点での最強ソフトを打ち負かしています。今回は、Alpha GoやAlpha GoZero
rin51 2021/05/17
機械学習

AlphaZero

強化学習

alphagozero

AlphaGo
リンク
モンテカルロ木探索を Python で実装する
はじめに AlphaZero 深層学習・強化学習・探索人工知能プログラミング実践入門以上の本を参考にさせていただき、モンテカルロ木探索(MCTS)を Python で実装しました。実装リポジトリは以下です。今回は、 MCTS を書くときに気をつけたことなどを将来の自分に向けてまとめておこうと思います。局面に対するお気持ち MiniMax や　MCTS の実装や本を読むときに以下のような悩みが発生すると思います。二人でプレイしているけど、現在見ている state オブジェクトの turn プロパティって先手と後手のどっちを表しているんだ？そもそも MiniMax や MCTS ってどっちの視点で考えればいいんだ？上記のような部分は、本ではかなり省略されることが多いです。視点の考え方まず、どっちの視点で考えればよいかですが、stateの局面でこれから打つ側の視点に立って考え
rin51 2021/05/17
機械学習

python

AlphaZero

強化学習

alphagozero

AlphaGo
リンク
AWS DeepRacer - the fastest way to get rolling with machine learning
AWS DeepRacer では強化学習 (RL) を楽しみながら学ぶことができます。RL は高度な機械学習 (ML) テクニックであり、他の機械学習とはまったく異なるアプローチでモデルトレーニングを行います。RL の強みは、ラベル付けされたトレーニングデータがなくても、非常に複雑な動作を学習できることにあります。長期的な目標に向けた最適化を行いつつ、短期的な決定を下すこともできます。
rin51 2019/06/13
399ドル #iotlt

aws

機械学習

強化学習

レース
リンク
深層強化学習：ピクセルから『ポン』 – 前編 | POSTD
(訳注：2016/6/28、記事を修正いたしました。) 本記事は、もう随分と前から投稿したいと思っていた強化学習（RL）に関するものです。RLは盛り上がっています。皆さんも既にご存知のこととは思いますが、今やコンピュータは ATARI製ゲームのプレイ方法を自分で学習することができ（それも生のゲーム画像のピクセルから！）、囲碁の世界チャンピオンにも勝つことができます。シミュレーションの四肢動物は走って飛び跳ねることを学習しますし、ロボットは明示的にプログラミングするのが難しいような複雑な操作のタスクでも、その実行方法を学習してしまいます。こうした進歩はいずれも、RL研究が基となって実現しています。私自身も、ここ1年ほどでRLに興味を持つようになりました。これまで、 Richard Suttonの著書で勉強し、 David Silverのコースを通読、 John Schulm
rin51 2018/05/08
機械学習

強化学習
リンク
“ゲームAI”で世界はどう変わる?　“ゲームAI”を学ぶ勉強会開催森川幸人氏のモリカトロンと、三宅陽一郎氏が提示する未来のゲーム
rin51 2018/03/03
機械学習

AI

遺伝的アルゴリズム

強化学習

がんばれ森川君2号

森川幸人

ゲーム開発
リンク
速習強化学習を刊行しました - sotetsuk's tech blog
少し（というか結構）前になりますが、2017年9月に「速習強化学習 ―基礎理論とアルゴリズム―」という本を刊行しましたので、簡単に紹介します（Twitter, FBでは告知しましたがブログがまだでした）。 GoogleのAlpha Goによるプロ棋士打破は，人工知能がヒトを超えた学習を行った歴史的出来事として認識された。強化学習はここで重要な役割を果たしてているだけでなく，自動運転やロボット制御などの重要な分野への応用も知られ，いま世間の強い関心を集めている。その一方，日本語で強化学習を体系的に学べる教科書は多くはなく，代表的な教科書であるSutton and Barto (1998)とその訳書も出版から20年が経とうとしている。本書はトップ会議のチュートリアルで利用されたり，2010年の出版以降わずか数年で500弱の引用がされたりという事実からも窺えるように，入門書として広く読まれてい
rin51 2018/01/19
機械学習

強化学習
リンク
深層強化学習でシステムトレードをやる時に役に立ちそうな資料まとめ - ニートの言葉
Photo via Visual Hunt 少し前のことですが、Alpha Goという囲碁の人工知能プログラムがイ・セドル九段に勝利したことで話題になりました。*1 また、一部のゲームにおいて「DQN（Deep Q-network）」が人間よりも上手くプレイするようになったというニュースも話題になっていましたね。*2 今回はこれらの事例で使われている「深層強化学習」という仕組みを使って、FXのシステムトレードができないかと思い、調べてみました。注意：強化学習もFXも勉強し始めたばかりなので、色々間違っている箇所があるかもしれません。ご指摘いただけると幸いです。今回の内容 1.強化学習について 1-1.強化学習 1-2.Reinforcement Learning: An Introduction (2nd Edition) 1-3.UCL Course on RL 1-4.強化学習につい
rin51 2016/11/16
強化学習

DQN

機械学習
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx