タグ

ブックマーク / yaneuraou.yaneu.com (44)

  • Winnyの金子さんのED法について | やねうら王 公式サイト

    Winnyの金子勇さんが考案された機械学習アルゴリズムED法を再現して実装した人がいていま話題になっている。 『Winny』の金子勇さんの失われたED法を求めて…いたら見つかりました https://qiita.com/kanekanekaneko/items/901ee2837401750dfdad いまから書くことは私の記憶頼りなので間違ってたらコメント欄で教えて欲しい。 1998年ごろだと思うのだが、私はWinnyの金子勇さんのホームページの熱心な読者だった。(ページも全部保存してたので私のHDDを漁れば出てくると思うが、すぐには出せない。) Winnyのβ版が発表されたのが2002年なのでそれよりはずいぶん前である。 当時、金子さんはNekoFightという3D格闘ゲームを公開されていた。そのゲームには、自動的に対戦から学習するAIが搭載されていた。 当時の金子さんのホームページの

    agw
    agw 2024/04/22
  • 元奨励会員のソフト指し問題について | やねうら王 公式サイト

    元奨励会員のほっしー氏が、将棋ウォーズでソフト指しを行い、アカウントをBANされた件で、将棋ソフト界隈にも波紋が広がっている。 ほっしー氏の謝罪動画 6名無し名人2021/10/30(土) 11:52:47.13ID:3jSfUMlp>>7>>213>>339 ほっしー氏謝罪動画での名言集 ・すでにSNS炎上しており、配信者である僕としても説明しないわけにはいきません →炎上しなければBANについて説明する気は無かった ・もちろん30級から六段までは不正を行わずぶっちぎりの成績で昇段することができました →ソフト指しの反省はさておき自分の棋力が高いことをとにかく伝えたい ・部分ソフト指しではBANされないと思い込んでいたわけでしたから頭が真っ白になってしまいました →過去将棋倶楽部24でソフトBANを受けているのにこの思考。要するにバレなければソフト指

    agw
    agw 2021/11/03
  • 将棋ソフトの評価値の出力に出てくるlowerboundとupperboundとは何ですか? | やねうら王 公式サイト

  • 渡辺明名人と東大教授で日本の脳研究の第一人者である池谷裕二先生との対談記事が間違いだらけである件 | やねうら王 公式サイト

    ここまでひどい記事は久しぶりだ。 渡辺明名人の疑問「将棋の初手でこれを指したら負けという“必敗”の手はありませんか?」 脳研究者の答えは… https://number.bunshun.jp/articles/-/846635 この手の対談は、編集側が元の発言とは異なる意図で解釈して、誤った書き方にしてしまうことが多々あるので、誰が悪いのかということはここでは問題としないことにする。ただ、内容が間違いだらけではあるので、ここではそれを指摘するに留める。 14年前のAIは「奨励会1級とか初段ぐらいだった」 池谷 渡辺さんのすごいところは、転換期を迎えた時に「じゃあAIに学んでみるのも面白いかもしれない」と思ったことですね。柔軟な適応力で発想の着火点をスムーズに転換されています。渡辺さんはかなり早い時期からAIと対戦されていましたよね? 渡辺 あれは2007年ぐらいでしたが、まだAIが全然強く

    agw
    agw 2021/01/14
  • 強化学習用の教師生成時のランダムムーブについて | やねうら王 公式サイト

    将棋AIの強化学習では自己対局を用いるが、その時に同一の棋譜ができてしまわないように何らかの工夫が必要である。 1) floodgateのような大量の実戦棋譜の任意の局面から開始する 2) 定跡を用意して、ランダムに定跡を採択する 3) 初手から数手、ランダムムーブを入れる 4) 序盤では最善手と評価値(or 期待勝率)がさほど離れていない指し手のなかからランダムに選択する 2016年~2017年ごろのやねうら王は、人間の棋譜を用いないということにこだわっていたので3)にしていた。いまどきの主流が1)なのか2)なのかは知らないが、AlphaZeroに影響を受けている人は4)が多いように思う。2018年は1)を試してみた。そちらのほうが少し強くなった。 それで、これに関して、なんとかちゃんねるに気になる投稿があったので引用する。 634名無し名人 (ワッチョイ 0234-3XbD)2020/

    agw
    agw 2020/10/28
  • 読み筋が合流するのに評価値が違う件 | やねうら王 公式サイト

    AbemaTVの放送で、AIの出力する候補手1と2の読み筋が途中で合流して同じ局面になるはずなのに評価値が1と2で異なるという状況があったらしく、それを解説していたプロの先生が「これはおかしいですね」とか何とかおっしゃっていたそうなのですが、これについて解説します。 やねうら王を始めとするいまどきの将棋ソフトの思考エンジンは、複数の候補手を出力するMultiPVという機能があります。AbemaTVの思考エンジンもこのMultiPVを用いて出力しているのだと思われます。 予測される状況1 ところが、AbemaTVのSHOGI AIでは、複数エンジンの評価値を組み合わせて期待勝率を出しているようです。 なので、 ・エンジン1が、候補手A,B,C ・エンジン2が、候補手A,C,D ・エンジン3が、候補手A,C,D のように候補手を出力した場合、候補手Aは、3つのエンジン(が候補手Aを指した時)の

  • 機械学習エンジニアのための将棋AI開発入門その2 | やねうら王 公式サイト

    前回の続き。将棋AIで最初に大規模機械学習に成功させたBonanzaの開発者である保木さんのインタビューがちょうどYahoo!ニュースのトップ記事として掲載されたところなので、今回はBonanzaの機械学習について数学的な観点から解説してみたいと思います。 Bonanzaの保木さんのインタビュー記事 プロ棋士に迫ったAI「Bonanza」 保木邦仁「将棋を知らないから作れた」 https://news.yahoo.co.jp/feature/1712 BonanzaのGPW発表スライド とは言え、Bonanzaで使われている機械学習の技法は、いまどきの機械学習とは少し毛色が異なるので心の準備が必要です。 まず、保木さんのGPW(ゲームプログラミングワークショップ)での発表スライド、以前はBonanzaの公式サイトからダウンロードできたのですが、Bonanzaの公式サイトがジオシティーズにあ

  • 機械学習エンジニアのための将棋AI開発入門その1 | やねうら王 公式サイト

    最近、機械学習を勉強している人が増えてきたので、簡単な機械学習ならわかるよといった人たち向けに将棋AIの開発、特に評価関数の設計について数学的な側面から書いていこうかと思います。線形代数と偏微分、連鎖律程度は知っているものとします。 3駒関係 3駒関係はBonanzaで初めて導入された、玉と任意の2駒との関係です。この線形和を評価関数の値として用います。評価関数とは、形勢を数値化して返す数学的な関数だと思ってください。 この3駒関係を俗にKPPと呼びます。King-Piece-Pieceの意味です。将棋の駒は40駒ありますので、{先手玉,後手玉}×残り39駒×残り38駒/2 通りの組み合わせがあります。この組み合わせは1482通りあります。Cをコンビネーション記号とすると、次のようになります。 $$ 2 \times {}_{39}C_{2}= 2 \times \frac{39 \tim

  • 世界的なポーカープレイヤーのお二人がやねうら王のツイートを巡って… | やねうら王 公式サイト

    事の発端は、私が、最近炎上ぎみであった大澤昇平さん(id:Ohsaworks)のツイートはAIによるものだと思っているとツイートしたことです。 私は、この人のツイートはRT数をその報酬とするAIで自動生成しているものだとかねてから思っていて、ここのところこのAI、ずいぶんと学習が進んできたのか炎上させるのが格段にうまくなってきたなと感心している。 https://t.co/V1ZkUNkXq9 — やねうら王 (@yaneuraou) November 24, 2019 ※ 元のツイートはすでに削除されています。 このあと、大澤昇平さんが一連のツイートは「AIの過学習」であったとお詫びをされたことから、私が早い段階でそのことを見抜いていた「さすがやねさん!」と言う世界的なポーカープレイヤーである木原直哉さん(id:key_poker)と、「いやいや、やねさんのあのツイートはジョークでしょ」

    agw
    agw 2019/12/03
  • 激指15速攻レビュー | やねうら王 公式サイト

    皆さん、待望の(?)激指15が発売になりましたので速攻でレビューしたいと思います。 『激指15』はそんなに強いのですか? 『激指15』は何やらとても強いという噂が流れてきました。 やねうら王VS激指15を戦わせると激指15pro+2が何度やっても勝つ。しかも激指15の方が圧倒的に差し手が早い。現状市販最強ソフトは激指15。 pic.twitter.com/H7v7jywRrs — くまごろう (@kumagorou921) July 24, 2019 これは聞き捨てならないので、実際に自分のPCにインストールして確かめてみました。 「対局開始」ボタンを押した瞬間、原因がわかりました。激指15、人間手番でもCPUを100%使い切ってますwww デフォルトでは論理スレッド分いっぱいまで使うようです。つまり4c8t(4物理コアで8論理コア)のマシンですと8スレッド動作ですね。 ※ 『将棋神やねう

    agw
    agw 2019/07/26
  • AWSに思考エンジンを配置してssh経由で使う方法 | やねうら王 公式サイト

    今回のWCSC29(第29回世界コンピュータ将棋選手権)では、AWSを利用するチームが目立った。ハイスペックなPCを持ち込んで戦うよりは、軽量なノートPCだけ持ち込んでAWSを使ったほうが機材の搬入が楽だし、スペックも悪くない。しかし、普段sshを使うこともないような人にとっては知らないことだらけでどうやって良いのか戸惑うことも多かった。かくいう私もその一人であった。そういう人の助けとなるように記事にまとめておく。 WCSC28でelmoが反則負けした件 まず、この原因を書いておくところから。この原因を知らないと怖くてsshが使えない。 elmoの瀧澤さんにWCSC29で尋ねたところ、「あれはMicrosoft製のsshを使っていて、1年以上更新していなかったもので、そのバージョンが古く、1行のバッファが1024文字までだったのが原因です。」とのことであった。 1行が1024文字までなので

    agw
    agw 2019/06/18
  • 1手1秒で強い将棋ソフトは1手10秒でも強いのですか?その1 | やねうら王 公式サイト

    「1手1秒で強い将棋ソフトが1手10秒でも強い」とは限らない。しかし、それはどういう条件の時にそう言えて、どういう条件の時にそう言えないのだろうか?これがわかると短い持ち時間で探索をチューニングすれば長い持ち時間で対局させた時も強いソフトが作れるはずである。 1手1秒で強い将棋ソフトが1手10秒でも強いとは限らない。しかし、1秒で強いソフトが10秒で強くなかったことなど私はこれまでの人生で7回しか経験していない。つまり、その7つのケースを知っていれば実は短い持ち時間で対局させ、長い持ち時間で強いような探索部のチューニングは可能であるのだが文字数 https://t.co/HH9gJKpIp9 — やねうら王 (@yaneuraou) May 16, 2019 この辺の話は、SDT2(第2回 将棋電王トーナメント/2014年)のころから参加している将棋ソフト開発者には常識であった(?)のだが

    agw
    agw 2019/05/17
  • AI界における全知vs全能論争 | やねうら王 公式サイト

    AtCoder社のchokudai(高橋 直大) さんが、競技プログラミングで上位に上がるためにどのようにすれば良いかということについて興味深いツイートをされている。言うまでもなくchokudaiさんは、AtCoderという競技プログラミングの国内最大級のサイトを運営されているだけではなく、ICFPC優勝4回等など競技プログラミングの世界ランカーでもある。 https://twitter.com/chokudai/status/1101139927629086720 https://twitter.com/chokudai/status/1101145431961100288 上記のツイートのなかには「全知」と「全能」という言葉が出てくる。 将棋で言うと「全知」とはすべての局面の正解手を知っているということである。これには無限に近い記憶容量が必要となる。将棋の場合、考えられうる局面数は、1

    agw
    agw 2019/03/01
  • AWSで1000万円分の計算資源を溶かしてしまう男 | やねうら王 公式サイト

    ※ タイトルは「AWSの費用に換算して1000万円分の計算資源」という意味です。「AWSにおいて1000万円分の計算資源を溶かした」という意味ではありません。念の為。 WCSC29に参加することにしたものの、やねうら王、一向に強くならないんですよ。 WCSC29、やねうら王チームは、マイナビのほうから20万円寄付(?)することにしました。 やねうら王のほうは、SDT5以来、全然強くなってなくてこのままでは出場自体が危ぶまれる。誰か助けてくれー。 — やねうら王 (@yaneuraou) February 24, 2019 しかし、ようやく強くならなかった原因が見えてきたので詳しくは選手権終了後に書きます。 SDT5(第5回 将棋電王トーナメント)の時に、Aperyがelmo + R230ぐらいまで強くなった(ただしエンジンはApery使用時)と平岡さんがおっしゃっていて、depth 8の教

    agw
    agw 2019/02/25
  • AlhpaZeroが居飛車を好む件 | やねうら王 公式サイト

    コンピュータ将棋機械学習が導入されたBonanza以降、私はずっと思っているのだが、3駒関係にしても他の駒の配置を暗黙的に仮定しているフシがある。 例えば、居飛車の棋譜からしか学習させなければ、飛車は28の升にあるものと仮定して、そのときに勝ちやすい駒のポジションを学習してしまう。このとき、88玉-78金-77銀という3駒関係を評価しているはずが、実質的に、28の飛車を絡めた4駒関係を評価していることになりかねない。 現在においてプロの棋譜を用いて学習させることはなくなったが、教師局面を生成するために自己対局させるときに、何らかの定跡で進めてからランダムムーブを入れて、そこからの自己対局をさせることがある。この場合、この教師から学習させるとその定跡の局面周辺の局面(において、良い駒のポジション)を学習してしまう。 では、教師局面を生成するときに用いる定跡と、ソフトが強くなったかを評価する

    agw
    agw 2019/01/31
  • AlphaZero Shogi弱すぎクソワロタ | やねうら王 公式サイト

    AlphaZeroのShogi版は、あっという間に従来の将棋ソフトを抜き去ったかのように喧伝されているので今回はここで少しばかり反論したい。 AlphaZero(の手法)が、将棋のドメイン知識(ゲーム固有の知識)を用いずに、汎用性の高い方法でゼロから機械学習をして、囲碁・将棋・チェスのAIにおいて成功を収めた。ここに異論はないし、素晴らしい業績だと思う。この点は、惜しみなく称賛すべきであると思う。 しかし、従来の将棋ソフトを圧倒的に追い抜いたのかについては若干の疑念がある。今回は、それについてざっと書いておきたい。 AlphaZeroの論文では、aperypaqとも対局させたと書いてある。aperypaqは最新のやねうら王エンジンと組み合わせるとおそらくR4300相当である。AlphaZeroはそれよりR150か200ほど強いことになっている。正確な数値はよくわからないが、まあ仮にR200

    agw
    agw 2019/01/18
  • 【決定版】コンピュータ将棋のHASHの概念について詳しく | やねうら王 公式サイト

    いまどきの将棋ソフトを使っていると、「HASH 50%」などと表示されている。これはHASH利用率と呼ばれる。この数字が大きくなってくると探索の効率が悪くなる。要するに潤沢にメモリがある場合に比べると弱くなる。これは、どれくらいの値までであるなら適切なのか?HASH利用率が99%にならない限りHASHには余裕があるものなのか?HASHはどういう仕組みになっているのか?HASH利用率が50%の状況で、ハッシュ衝突はしているのか?など、わりとソフトを長年使っていても知らない人が多いのでここに原理から詳しく説明した決定版的な記事を書く。 ShogiGUI将棋神やねうら王に表示されている「HASH」とは何ですか? 一度探索した局面を保存しておく表です。 この表に登録するときにハッシュ(hash)という値を使って登録するため、ハッシュテーブル(hash table)と呼ばれます。これを略して(値と

  • 世界コンピュータ将棋選手権のライブラリ制度について思うこと | やねうら王 公式サイト

    来年5月に開催される世界コンピュータ将棋選手権(WCSC29)では、ライブラリ家は、(他のライブラリを使用していない限り基的には)ライブラリ使用とはみなされないらしい。これについて、少し意見を述べたい。 私(やねうら王)は、ライブラリ使用チームとはみなされない。仮に私がいまのやねうら王のGitHubのソースコードのまま、NNUE評価関数を使って出場してもライブラリ使用チームではないのである。 言うまでもなく、NNUE評価関数は、tanuki-チームが開発したもので、私は1行もソースコードを書いていない。将棋ソフトにおいて、探索と評価関数は車輪の両輪である[要出典]と言われるが、その片側を私はノータッチなわけだ。これで、ライブラリ使用チームでないと言うなら、tanuki-チームもライブラリ使用チームではないとみなすべきである。(あるいは、両方のチームをライブラリ使用チームとみなすべきであ

    agw
    agw 2018/11/05
  • AIから人間が学ぶ方法について考えてみた | やねうら王 公式サイト

    ゲームAIに関しては、オセロ、チェス、将棋、囲碁とすでにトッププロでも敵わないレベルに到達した。これらのゲームAIから人間が学ぶにはどうすれば良いのかということについて考えてみる。 まず最初に考えられるのは、コンピューターに最善手(あるいは、最善応手列)を示してもらうというものである。 ある程度棋力があれば、最善手だけもらえれば学べるかも知れないが、得られる情報量としては少ないので、少々物足りない意味はある。 そこで最善応手列とそのときの(局面の)評価値から学ぶという手法がある。(このブログの読者には説明するまでもないが)評価値は、形勢の良し悪しを数値化したものである。これを期待勝率(同じぐらいのプレイヤー同士がその局面から指し継いだ時の勝率)に変換したもののほうが人間的には嬉しいかも知れない。 将棋のプロ棋士である千田先生がこれに近い方法で、学ばれているのだと思う。自分の感性(直感)を、

    agw
    agw 2018/09/04
  • DeepMind社がやねうら王に注目し始めたようです | やねうら王 公式サイト

    DeepMindがAlphaGo Zeroで使われた手法をチェスと将棋に適用して、チェスと将棋の世界でもぶっちぎり強いソフトが出来たそうです。(私は、内容は詳しく読んでいません。) おーDeepMindの論文にelmoデビューしとる。でもElmoって書いてあるから個人的にリジェクトで。しかし強い。DeepMind凄いね。https://t.co/o5SmgmH6KG — 瀧澤 誠@elmo (@mktakizawa) December 6, 2017 RT> DeepMindの論文にやねうら王の文字があるんだけどw 何か知らないけど、やねうら王、世界的にデビューしてた!! pic.twitter.com/HVb1CZKue6 — やねうら王 (@yaneuraou) December 6, 2017 まあ、ResignValue = 900 (評価値が-900を下回った時点で投了扱い)にな