並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 9 件 / 9件

新着順 人気順

AlphaZeroの検索結果1 - 9 件 / 9件

タグ検索の該当結果が少ないため、タイトル検索結果を表示しています。

AlphaZeroに関するエントリは9件あります。 人工知能AI機械学習 などが関連タグです。 人気エントリには 『GoogleのDeepMindが囲碁のルールを自ら学習することでAlphaZeroを凌駕する強化学習手法「Muzero」を提案。』などがあります。
  • GoogleのDeepMindが囲碁のルールを自ら学習することでAlphaZeroを凌駕する強化学習手法「Muzero」を提案。

    3つの要点 ✔️その1 DeepMindからAlphaZeroの進化版「MuZero」が登場 ✔️その2 モデルベース強化学習によりルールを与えなくてもAlphaZeroに勝利 ✔️その3 囲碁・チェス・将棋に加えてAtariでも同一モデルで最高性能を達成 続きを読むには (3155文字画像6枚) AI-SCHOLARに 登録いただく必要があります。 1分で無料で簡単登録する または ログイン

      GoogleのDeepMindが囲碁のルールを自ら学習することでAlphaZeroを凌駕する強化学習手法「Muzero」を提案。
    • エクストリーム「人類最強ボードゲームAI」AlphaZeroアルゴリズム入門 - Qiita

      はじめに 僕が、この本に出会ったのは、かれこれ1ヶ月前のことになる。 それまでは、自分は「AlphaZero」のAの字も知らない「AlphaZero童貞」だった。 AlphaZero 深層学習・強化学習・探索 人工知能プログラミング実践入門 この本にであって、気づいたらAlaphaZeroを自分で実装するところまでいけた! わかりやすい、大変オススメの本です。 (※この記事の図は、この本から引用しています。) この記事を読むことで、 「AlphaZeroのアルゴリズム概要はつかめた。」 というところまで、噛み砕いてエクストリームに説明できればと思います。(中田敦彦風) AlphaZeroのすごいところ まず、AlphaZeroをかいつまんで話すと ルールを与えるだけで、自分のコピーとひたすら対戦を繰り返し勝手に学習して、進化していく(強化学習と呼びます) いろんなゲームに転用可能 十分に学

        エクストリーム「人類最強ボードゲームAI」AlphaZeroアルゴリズム入門 - Qiita
      • 実はDeepMindの囲碁AI「AlphaGo」や進化版である「AlphaZero」のコア部分はひっそりとオープンソース化されている

        AI開発企業のDeepMindが開発し、人間のトップ棋士を打ち負かしたことで話題を呼んだ囲碁AIの「AlphaGo」や、あらゆるボードゲームを学習できる進化版AIの「AlphaZero」のコアとなる部分が、実はひっそりとGitHubでオープンソース化されていると指摘されています。 Do you know that DeepMind has actually open-sourced the heart of AlphaGo & AlphaZero? It’s hidden in an unassuming repo called “mctx”: https://t.co/GpNtwH9BxA It provides JAX-native Monte Carlo Tree Search (MCTS) that runs on batches of inputs, in parallel, a

          実はDeepMindの囲碁AI「AlphaGo」や進化版である「AlphaZero」のコア部分はひっそりとオープンソース化されている
        • “深層学習”ではなく“深層強化学習”が決め手 将棋界最強のAlphaZeroと互角の強さ「dlshogi」の秘密

          特徴量を入れて効率的に学習をさせる 川島馨氏(以下、川島):私が作っているdlshogiの特徴を説明します。dlshogiでは私個人が趣味でやっていて、Googleみたいな計算資源が大量にあるわけじゃないので、どうやって効率的に学習するかをいろいろ考えて、少し工夫をしています。 主な工夫点は、先ほど盤面の画像を用いるという話があったんですが、そこにもう少し将棋で有効な特徴量を入れています。駒の配置以外にも駒の利きの情報や王手の情報を入れることで、もっと効率的に学習するようにしています。 先ほど少し言ったとおり、やっぱり終盤が少し弱いので、そこをどうやって克服するかを考えて工夫しています。モンテカルロ木探索の中で、終端で“詰め”の探索をしたり、長手数の詰めの探索はdf-pnという別のアルゴリズムで行なったりしています。 強化学習をするときも“詰み”の探索をして、詰みが見つかったらそれを勝ちと

            “深層学習”ではなく“深層強化学習”が決め手 将棋界最強のAlphaZeroと互角の強さ「dlshogi」の秘密
          • AIプログラムの「AlphaZero」にチェスを学習させる中で明らかになった知見とは?

            Alphabetの子会社で人工知能(AI)開発企業でもあるDeepMindとGoogleのAI専門研究部門であるGoogle Brainが、チェスのグランドマスターであるウラジーミル・クラムニク氏と協力し、「人間におけるチェスの指し手の進化」と「チェスAIの進化」を比較するプロジェクトを実施しました。 Acquisition of Chess Knowledge in AlphaZero | ChessBase https://en.chessbase.com/post/acquisition-of-chess-knowledge-in-alphazero このプロジェクトではチェスの膨大なデータベースであるChessBaseに保存されている棋譜や、「AlphaZero」のニューラルネットワークチェスエンジン、オープンソースのチェスエンジンである「Stockfish」の各種コンポーネントな

              AIプログラムの「AlphaZero」にチェスを学習させる中で明らかになった知見とは?
            • スッキリわかるAlphaZero - どこから見てもメンダコ

              The game of Go has long been viewed as the most challenging of classic games for artificial intelligence 囲碁はAIにとってもっとも困難なボードゲームの一つと考えられてきました (Mastering the game of Go with deep neural networks and tree search | Nature より) Alpha Zero: https://science.sciencemag.org/content/362/6419/1140.full?ijkey=XGd77kI6W4rSc&keytype=ref&siteid=sci (オープンアクセス版) Alpha Go Zero: Mastering the game of Go without human

                スッキリわかるAlphaZero - どこから見てもメンダコ
              • 「AlphaZero」の先へ--強化学習によるロボット訓練、研究者が示した複雑さと期待(ZDNet Japan) - Yahoo!ニュース

                人工知能(AI)の多くは、理想化された環境で開発されている。つまり、現実世界の起伏を省略して表現したコンピューターシミュレーションだ。囲碁やチェス、テレビゲームをプレイさせることを目的として作られたDeepMindの「MuZero」や、文章を生成するために作られたOpenAIの「GPT-3」もそうだが、高度な深層学習プログラムのほとんどは、余分なものを刈り込んだ制約のセットをトレーニングに使用することで大きなメリットを受けている。 それを考えれば、完全には予期できない現実世界のさまざまな制約を考慮しなければならないロボット工学への深層学習の応用は、この領域ではもっとも困難である一方で、ひょっとするともっとも有望な研究なのかもしれない。 これが、カリフォルニア大学バークレー校とGoogleの研究者が、強化学習と呼ばれる技術を使って数年間にわたって行ってきたロボットの実験についてまとめたレポー

                  「AlphaZero」の先へ--強化学習によるロボット訓練、研究者が示した複雑さと期待(ZDNet Japan) - Yahoo!ニュース
                • 【論文】Bridging the Human–AI Knowledge Gap: Concept Discovery and Transfer in AlphaZeroを読む - TadaoYamaokaの開発日記

                  DeepMindがarXivで発表した、AlphaZeroからチェスの新しい概念を抽出して人間のパフォーマンス向上に使えるようにする方法について述べた「Bridging the Human-AI Knowledge Gap: Concept Discovery and Transfer in AlphaZero」を読んだ際のメモ。 概要 AlphaZeroから隠されたチェスの知識を概念として抽出する 概念は、AlphaZeroの中間層から概念ベクトルとして抽出する 人間が知らずAlphaZeroだけが知っていること発見する 学習可能かつ新規な概念を抽出する 人間のグランドマスターが概念を学習可能か検証した 結果 概念と局面を提示することで、チェスのグランドマスターのテスト局面の正解率が向上した AlphaZeroが学習した知識は、人間の理解を超えるものではなく学習可能な知識であることが示さ

                    【論文】Bridging the Human–AI Knowledge Gap: Concept Discovery and Transfer in AlphaZeroを読む - TadaoYamaokaの開発日記
                  • tail-island: 今年49歳になるおっさんでも作れたAlphaZero

                    前回やったモンテカルロ木探索は、けっこう強くて面白かった。でも、人間の欲には限りがありません。もう少しだけ、強くできないかな? それ、話題の深層学習ならできます。そう、AlphaGoの後継のAlphaZeroならね。 #作成したコードはこちら。 モンテカルロ木探索で、なんとなく不満なところ モンテカルロ木探索では、UCB1というアルゴリズムで手を選んでいました。で、このUCB1なんですけど、とりあえず1回は全部の手を試すところが嫌じゃないですか? 相手がリーチをかけてきたら、防ぐ以外の手は考えられません。でもUCB1だとそれ以外の手も試さなければならないという……。会社で明らかにダメなプロダクトを使えと言われて、いかにダメかを口頭で説明して、でも意識高げな詐欺師に騙されちゃってるみたいで聞く耳持ってもらえなくて無駄な評価作業を開始するときのような感じ。プログラム組めない奴がプロダクトを選定

                    1

                    新着記事