endo_5501のブックマーク - はてなブックマーク

人間の棋譜を用いずに評価関数の学習に成功 | やねうら王公式サイト

今回、新たに評価関数をゼロベクトルから学習させた。elmo絞りを使うと意外と簡単にApery(WCSC26)相当の棋力を持つ評価関数にまで出来るようだ。追試できるように記事の前半に手順を記しておく。また、記事の後半には何回目のelmo絞りでどの程度の強さであったかも示す。 elmo絞りを知らない人のために簡単に説明すると、今回、将棋ソフトが人間の棋譜を用いずに勝率の高い形を強化学習でソフト自らが自動的に覚えたということである。今回、1回に生成している教師の数は5億局面。対局回数で言うと400万局程度であろうか。それだけの対局を終局までこなすことで、どういう駒の位置関係だと勝ちやすいのかを学習したということだ。私は以前、elmo絞りを用いずにある程度の強さまでは到達出来たのだが、計算資源を湯水の如く消費するので途中で断念してしまった。今回はそのリベンジである。題して「Re : ゼロから始め

endo_5501 2017/06/12

“プロの棋譜なんて最初から要らんかったんや〜”

リンク

elmoがもたらしたオーパーツについて | やねうら王公式サイト

WCSC27で優勝したelmoがもたらしたのは、たった一行の革命だった。交差エントロピーで勾配を求めるとき、普通は次式のようになる。 dsig = eval_winrate – teacher_winrate; eval_winrateは、浅い探索(qsearch)の評価値を勝率に変換する関数(シグモイド関数を用いている)で変換したもの。 teacher_winrateは、深い探索(search)の評価値を勝率に変換する関数で変換したもの。交差エントロピーで勾配を求める場合、上式のように差をとるだけだ。この式の導出については、第4回電王トーナメントのときの白美神のPR文書にある。 elmo式の雑巾絞りはこの式を次のように改良した。 dsig = (eval_winrate -t) + 0.5 * (eval_winrate – teacher_winrate); tはこの局面の手番側が

endo_5501 2017/05/23

強化学習

リンク

ポストビッグデータとしての強化学習が将棋ソフトを変えた | やねうら王公式サイト

Bonanzaメソッドが公開されたとき(2006年〜)、棋譜さえあれば将棋ソフトは自動的に強くなるのではないかと人々は思った。その考えは概ね正しかった。評価関数の表現の限界までは棋譜さえあれば、理論上は強くなる。しかしその肝心の棋譜が圧倒的に足りていなかった。3駒関係(KPP)には1億次元以上のパラメーターがあったからだ。 1億の未知数を決定するためには、(N元一次連立方程式だとして)少なくとも1億個の方程式が必要だ。実際には、未知数の10〜100倍の方程式(≒教師局面)が必要だ。オンラインで入手可能なプロの棋譜は3万棋譜ほどしかなかった。局面数で言っても300万局面程度。300万局面で1億個のパラメーターが調整できるのか？できない。全くと言っていいほど足りていない。そして、我々は、全く足りていないことにもあまりに無自覚であった。当時は「入玉のときの評価値が少しおかしいな。入玉の棋

endo_5501 2016/11/05

“大抵の分野においてビッグデータなんてどこにも転がってなんていないのだ。そういう分野においてデータ自体を自己生成しなければならない”

強化学習

リンク

将棋電王トーナメント1日目、実況スレッド | やねうら王公式サイト

この記事で実況していきます。今回の技巧は？公開している技巧から+R150ぐらいとのこと。やね「電王トーナメントが終わったらまたソースコード公開するんですか？」出村「する…かも…」今回のApery(浮かむ瀬)は？探索はStockfish7に合わせたとのこと。探索パラメーターの調整はあまりしてない様子。会場の写真公開禁止の件スタッフより、「放送が始まるまで、会場(の全体が写っているもの)の写真をSNS等にアップしてはいけません」とのこと。 ※　放送が開始になったので写真を追加。会場の写真解禁っ！！(>_<) #電王トーナメント pic.twitter.com/SH3oc8yYAe — 香上智＠Labyrinthus＋＃ (@kagami_tomo) October 8, 2016 SkylakeのHTが遅い件今回のPC、HT時のnpsがあまり出ないようです。並列化効率の良

endo_5501 2016/10/09

将棋

リンク

やねうら王ライブラリ VS Aperyライブラリ | やねうら王公式サイト

今年の5月に開催されたWCSC26(第26回世界コンピュータ選手権)では、Aperyをライブラリとして使ったチームが非常に多かったですが、今年10月の電王トーナメントではそのへんの勢力図はどう移り変わっていくのでしょうか。開発者向けのライブラリとして見たときに、Aperyではなくやねうら王を用いるメリットについて書いてみます。本記事は、やねうら王の開発側から見た一方的な見解ですので、そのつもりでご覧ください。 VisualStudio2015(無償版でも可)でビルドを実行するだけで一発でビルド出来る。また、Windows/MacOS/Linuxでビルド可です。Aperyの場合、Windows用はVisualStudio用のプロジェクトファイルが含まれていない＆多少の修正が必要になるようです。ソースコード上に解説コメントが豊富。 C++のコードよりコメント行のほうが多いはずです。これ

endo_5501 2016/07/23

将棋

リンク

近年のコンピュータ将棋の急速な伸びの理由は？ | やねうら王公式サイト

表題の件を当事者視点で。「近年のコンピュータ将棋の急速な伸びの理由は？」という問いの模範解答が分からない。（１年で２００ほど伸びるようになった理由。）そこそこ聞かれる質問なので、答えを用意しておきたいのだが・・・ — Shota Chida (@mizumon_) July 14, 2016 理由をたったひとつ挙げるとしたら、2016年時点での最新の回答は「誰でも機械学習が出来るようになった」ではないかと思います。従来、将棋ソフトの機械学習というのはBonanzaメソッド(通称ボナメソ)一択でした。激指はオンライン学習風の何かをやっていたのですけど、Bonanzaの3駒関係ほどパラメーターの数が多いと(数百万パラメーター)、オンライン学習ではうまくいかないと信じられていたので、誰もやっていませんでした。ボナメソについて書かれた保木さんの論文自体、当時の将棋ソフト開発者には難解で(見

endo_5501 2016/07/22

機械学習

リンク

CODEVS 5.0 準優勝しました！ | やねうら王公式サイト

いまソースコードを公開されている人のソースコードの解説は後日詳しく書きますが、まずは簡単にご報告だけ。今日はCODEVS本戦！俺様のAIはtakapt無双を阻止出来るのであろうか。(たぶん出来ない) なお、私は今日、早起きしすぎたので、現地では寝てると思います。zzz… — やねうら王 (@yaneuraou) March 25, 2016 本戦では、リーグAとリーグBに分かれて、それぞれ4人で総当りだったのですが、リーグAではなんと私がtakaptさんにも勝って、私がリーグAで全勝。そのときのtakaptさんの悲壮なツイートがこちら。やねうらおさんが上位互換AIっぽいのでダメみたいですね(落胆)#codevs — ぷち＠ぷよぷよAIを作っています (@takapt0226) March 26, 2016 そのあと私は順当に決勝まで勝ち上がり、決勝で私はtakaptさんと当たって、4-

endo_5501 2016/03/27

programming

リンク

やねうら王nanoの実行ファイルを公開しました | やねうら王公式サイト

やねうら王nano V1.39がfloodgateでR2000を突破した。めでたい。そんなわけで、やねうら王nanoの開発はこれにて終了。やねうら王nanoの実行ファイル一式を公開する。やねうら王nanoの思考エンジンのダウンロードやねうら王のGitHubのexeフォルダから。 https://github.com/yaneurao/YaneuraOu/tree/master/exe ファイルの配置方法などは YaneuraOu-nano-readme.txt を御覧ください。やねうら王nanoとは？やねうら王nanoとは、探索部が150行程度(コメント行除く)の極めてシンプルで読みやすいソースコードから成る、将棋の思考エンジンである。やねうら王nanoの探索部のソースコード https://github.com/yaneurao/YaneuraOu/blob/26593bc8d

endo_5501 2016/02/10

思考

リンク

続) Haswell以降専用だと何が嬉しいのですか？ | やねうら王公式サイト

前回の続きです。「Haswell以降専用命令を使っても速くならない！」とお嘆きの将棋ソフト開発者救済のために記事を書いたのだけど、この記事の続きに興味のある人がどれくらいいるか知りたいので続きが読みたい人はこのツイートをRTしてくれませぬか。 http://t.co/cJpUm5okdj — やねうら王 (@yaneuraou) October 9, 2015 意外と反響があったので、今日もだらだらと書いていきます。確かに、面倒なことをせずにまずシフト演算を入れるべきだったか。 https://t.co/H9xUiB6TR4 — 久保亮介 (@RyosukeKubo) October 10, 2015 今回は話を整理するために、Bitboardとは何なのかというところから進めていきます。 Bitboardというのは、将棋の盤面において、駒のある場所に対応するbitが1になっているビット

endo_5501 2015/10/11

将棋

リンク

Haswell以降専用だと何が嬉しいのですか？ | やねうら王公式サイト

Haswell以降、BMI2やAVX256が使えます。これらを使うとコンピューター将棋において何が嬉しいのでしょうか？ Haswellより古いCPUのための互換動作用コードを書くのが大変すぎてお嘆きの皆さんへ。「Haswell以降専用だっていいじゃない。速いんだもの。うらお」あ、最後の「うらお」は、「やねうらお」の「うらお」です。 — やねうら王 (@yaneuraou) October 2, 2015 まず今回はpextの周辺についていままで誰も書いていないあたりをだらだらと書いていきます。今回の文脈ならbitwise(ビット単位)であることは書かなくともわかると思うので、以下、単にor/and/xorと書きます。 BMI使ってますか？ http://d.hatena.ne.jp/LS3600/20141011 ここまでは他の開発者の皆さんもよくご存知のことでしょう。まず、mag

endo_5501 2015/10/09

将棋

リンク

人間は何故過学習をしてしまうのか | やねうら王公式サイト

私の友人の奥さんはゴキブリが大層嫌いで、先日、ゴキブリが目の前に飛んできたので慌てふためいて後ろに仰け反り(飛び跳ね？)、打ちどころが悪かったのか腰の骨を折ってしまった。そもそも腰の骨を折ることに比べれば、ゴキブリを手で握り潰すぐらいのほうがまだ害は少ない。何故、このようなことになってしまうのか？子供にゴキブリを見せてもここまで過剰な反応はしない。ゴキブリに過剰な反応を示すのはどう見ても(過度な)学習の結果である。また、飲食業で接客を長年していた女性とレストランなどで食事をするとたいていその店の接客態度が気に入らないだとか何だとか言い始める。場合によっては店員に烈火のごとく怒り始める。そんなことをされると一緒に食事をしているこちらまで気分が悪くなるし、ご飯もまずくなる。おまけにその店の接客が良くなろうと別に彼女の収入が上がるわけでもない。そもそも彼女にしてもその店に再度来店するつもり

endo_5501 2015/09/04

学習

リンク

電王戦Finalを終えてその4 | やねうら王公式サイト

前回の続きです。今日は記者会見直後の会話から。平岡さんが暴走するから… Aperyの平岡さんと、ドワンゴの川上会長と私の三人で。やね「平岡さん、なんで事前貸出は反対とか言うんですか！」平岡「やねさんだって、ブログで事前貸出ルールは茶番や！とか言ってはったのに。」やね「貸出ルールのことは『茶番』なんて言ってないですよ？『八百長』やと言っただけで…。」平岡「(笑)」やね「平岡さんが『反対やー！』言うから、思わず、私、バランス取るために賛成派に回っちゃいましたよ！(笑)」平岡「やねさん、反対派やなかったんですか？」やね「八百長ルールだとは書きましたけど、私は反対とも賛成とは言ってませんよ？そこはこういうときのために『あえて表明しておかない』メソッドですよ。」平岡「そんなんアリですか…(笑)」やね「平岡さんこそ、なんでいきなり『やらんほうが良かった』とか言い出すんですか？それこ

endo_5501 2015/04/20

“病気の治療にはガイドラインというものがあって、-略-、ガイドラインの推奨アルゴリズムは日本だと主に大学院生達による”人力機械学習大作戦”(-略-)で作られている”

機械学習

リンク

電王戦Finalを終えてその2 | やねうら王公式サイト

昨日の予告通り、色々書いていきたいと思います。今日の記事は記者会見前に他の開発者と話したこと。平岡さんに「やねさんは、ほんま賢い」と褒められまくった件やね「平岡さん、何食べてるんすか？」平岡「(スポンサー提供の)バームクーヘンとプリン…」やね「このあと打ち上げですよ？」平岡「食べたかってんもん…」やね「打ち上げはドワンゴの金で食べ放題ですよ？」平岡「！！？」やね「バームクーヘンとプリンなら鞄に入れて持ち帰ればいいじゃないですか。」平岡「ほんまや！(ﾟдﾟ)」やね「私はバームクーヘン2個、鞄に詰めましたよ？」平岡「！！？」このあと平岡さんが色んな人にこの件で「やねさんは、ほんま賢い！」と触れて回っていた模様。そんなところ褒められても全然嬉しくないんですけど…。(笑) 西海枝さんはそこまで将棋が弱くない件やね「(平岡さんのツイッター見たら)えらく早くに会場に着いたん

endo_5501 2015/04/13

リンク

やねうら王公式サイト

本サイトのメインコンテンツやねうら王 — 棋力的にトップ集団の将棋ソフトに比肩する将棋ソフトやねうら王オープンソースプロジェクト — やねうら王miniから最新のやねうら王までのソースコードと思考エンジン本体ふかうら王 — Deep Learningを採用した新しい時代の将棋ソフトたけわらべ — 利きだけを理解している新しい感覚の将棋ソフト Stockfish完全解析 — コンピューターチェスの強豪ソフトStockfishの完全解析将棋電王戦 — 株式会社ドワンゴ主催の将棋電王戦。やねうら王は４年連続出場コンピューター将棋全般 — コンピューター将棋全般の話題プロコン — CODEVSなどプログラミングコンテストの話題なお、この記事のここから下には新着記事が表示されています。

endo_5501 2010/01/09

吹き出し、邪魔なんすけど・・・

リンク

はてなブックマーク

タグ

ブックマーク / yaneuraou.yaneu.com (34)

お知らせ

月間はてなブックマーク数ランキング（2024年9月）

今週のはてなブックマーク数ランキング（2024年9月第5週）

今週のはてなブックマーク数ランキング（2024年9月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス