タグ

関連タグで絞り込む (0)

  • 関連タグはありません

タグの絞り込みを解除

強化学習に関するducky19999のブックマーク (5)

  • 強化学習入門 Part3 - AlphaGoZeroでも重要な技術要素! モンテカルロ木探索の入門 - - Platinum Data Blog by BrainPad

    記事は、当社オウンドメディア「Doors」に移転しました。 約5秒後に自動的にリダイレクトします。 強化学習入門の第3弾。「モンテカルロ木探索(Monte Carlo Tree Search, MCTS)」を解説するとともに、実際にAI同士で五目並べを戦わせてみました! こんにちは。アナリティクスサービスAI開発部の山崎です。 昨年も強化学習界隈は盛り上がりを見せていましたが、今なお、強化学習と言えば一番にAlphaGoを思い浮かべる人も多いのではないでしょうか。昨年、AlphaGoZeroという進化バージョンが発表され、一切のお手を用いずに従来バージョンより強いということが話題になりました。(それまでのAlphaGoは、人のお手をある程度学び、その後勝手に学んでいくものでした) さらに、AlphaGoZeroを一般化したアルゴリズムに修正したAlphaZeroが登場し、チェス

    強化学習入門 Part3 - AlphaGoZeroでも重要な技術要素! モンテカルロ木探索の入門 - - Platinum Data Blog by BrainPad
  • PythonとKerasを使ってAlphaZero AIを自作する | POSTD

    自己対戦と深層学習でマシンにコネクトフォー(Connect4:四目並べ)の戦略を学習させましょう。 この記事では次の3つの話をします。 AlphaZeroが人工知能AI)への大きなステップである2つの理由 AlphaZeroの方法論のレプリカを 作って コネクト4のゲームをプレイさせる方法 そのレプリカを改良して他のゲームをプラグインする方法 AlphaGoAlphaGo Zero→AlphaZero 2016年3月、DeepmindのAlphaGo(アルファ碁)が、囲碁の18回の世界王者、李世乭(イー・セドル)との五番勝負で、2億人の見守る中、4-1で勝利しました。機械が超人的な囲碁の技を学習したのです。不可能だとか、少なくとも10年間は達成できないと思われていた偉業です。 AlphaGo 対 李世乭の第3局 このことだけでも驚くべき功績ですが、DeepMindは、2017年10月、

    PythonとKerasを使ってAlphaZero AIを自作する | POSTD
  • これさえ読めばすぐに理解できる強化学習の導入と実践

    強化学習の位置づけ 教師あり学習 教師なし学習 強化学習 強化学習の応用事例 Atariの攻略 AlphaGo ロボットの自動動作獲得 ファイナンスへの応用 広告配信の最適化 OpenAI Gymを使ってQ-learningを実装してみる 状態 行動 報酬 実装 参考文献 ディープラーニングなどの機械学習技術の進歩によって、過去のデータから学習する技術は大きく進化し、写真の中に写っている対象を認識することや病気の診断、多言語間の翻訳をする性能を著しく向上させることができました。 すでにその性能は専門的な教育を受けた人間の能力と同等 [1] か超えている分野もあるほどです。 一方で、人間にはデータを与えなくとも自ら経験から学び、スキルを上達させることができます。特に何も教えられなくとも、経験からゲームを攻略することやロボットの正しい動作の仕方を学んでいくことができます。 機械学習の中でも、こ

    これさえ読めばすぐに理解できる強化学習の導入と実践
  • 強化学習の基本 Qラーニングを直観的に理解するためのアニメーションによる可視化 - Qiita

    経路探索問題を強化学習で解き、その過程をアニメーションで可視化しました。 ↑↓で速度調節、Spaceで最速の学習、ドラッグ or タップで障害物の追加ができます。 これにより、強化学習で何をしているのか直観的に分かりやすくなりました。 問題設定 アニメーションで可視化している問題の設定は、下記の通りです。 条件 $n\times n$のマスからなる離散的なフィールド 固定の初期位置と目標位置(⭐)、障害物が配置されている 障害物(🔴)は、踏んだら死ぬ。初期位置からやり直し 自機(👾)は単位時間に8方向のいずれかへ1マス移動できる 横移動と斜め移動のコストは同じ 得たい出力 初期位置から目標位置までの、障害物を回避した最短経路 この問題を強化学習のフレームワークに落とし込み、Qラーニングで求解しています。 詳細は後述します。 各インジケータの意味 可視化の見方を説明します。 前節で述

    強化学習の基本 Qラーニングを直観的に理解するためのアニメーションによる可視化 - Qiita
  • 強化学習事例集 by Team AI - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? #はじめに 強化学習の時代が来ようとしています。 Team AIの研究会でも、現状ゲームAIとロボティクスに偏りがちな事例を、 もっと多くの産業に広げていきたいと日々議論しています。 今日はそんな強化学習業界の発展に寄与すべく、事例集を日語訳していきたいと思います。 エンジニアの皆様のヒントになりましたら幸いです。 元情報; http://umichrl.pbworks.com/w/page/7597597/Successes%20of%20Reinforcement%20Learning https://sites.ualberta

    強化学習事例集 by Team AI - Qiita
  • 1