タグ

algorithmとalphazeroに関するmanabouのブックマーク (2)

  • 強化学習入門 Part3 - AlphaGoZeroでも重要な技術要素! モンテカルロ木探索の入門 - - Platinum Data Blog by BrainPad

    記事は、当社オウンドメディア「Doors」に移転しました。 約5秒後に自動的にリダイレクトします。 強化学習入門の第3弾。「モンテカルロ木探索(Monte Carlo Tree Search, MCTS)」を解説するとともに、実際にAI同士で五目並べを戦わせてみました! こんにちは。アナリティクスサービスAI開発部の山崎です。 昨年も強化学習界隈は盛り上がりを見せていましたが、今なお、強化学習と言えば一番にAlphaGoを思い浮かべる人も多いのではないでしょうか。昨年、AlphaGoZeroという進化バージョンが発表され、一切のお手を用いずに従来バージョンより強いということが話題になりました。(それまでのAlphaGoは、人のお手をある程度学び、その後勝手に学んでいくものでした) さらに、AlphaGoZeroを一般化したアルゴリズムに修正したAlphaZeroが登場し、チェス

    強化学習入門 Part3 - AlphaGoZeroでも重要な技術要素! モンテカルロ木探索の入門 - - Platinum Data Blog by BrainPad
  • AlphaZeroの仕組みと可能性

    Tweet AlphaZeroクローンはあちこちにあるが、どうも将棋とかオセロとか三目並べとか、ありきたりな題材しかない。 AlphaZeroの原理はモンテカルロ探索木なので、原理上は完全情報ゼロ和ゲーム、すなわち盤面の組合せが有限であるものは全て攻略できることになる。 出典:wikipedia Monte Carlo Search Tree しかし囲碁、オセロ、三目並べ、将棋、チェスが攻略できるだけでもそれなりにウレシイが、世の中にある問題の大半は完全情報ではない。現実の問題をAlphaZeroに入力する際には、不完全情報ゲームでも勝てる見込みがないといけない。 ところがいくら探しても僕の見える範囲では不完全情報ゲームを攻略したという話は見つからない。そういうときは自分で試すしかないのである。 AlphaZeroのソースコードを追いかけていた僕は、不意に奇妙な喪失感に襲われた。 「なんだ

    AlphaZeroの仕組みと可能性
  • 1