将棋AIの強化学習では自己対局を用いるが、その時に同一の棋譜ができてしまわないように何らかの工夫が必要である。 1) floodgateのような大量の実戦棋譜の任意の局面から開始する 2) 定跡を用意して、ランダムに定跡を採択する 3) 初手から数手、ランダムムーブを入れる 4) 序盤では最善手と評価値(or 期待勝率)がさほど離れていない指し手のなかからランダムに選択する 2016年~2017年ごろのやねうら王は、人間の棋譜を用いないということにこだわっていたので3)にしていた。いまどきの主流が1)なのか2)なのかは知らないが、AlphaZeroに影響を受けている人は4)が多いように思う。2018年は1)を試してみた。そちらのほうが少し強くなった。 それで、これに関して、なんとかちゃんねるに気になる投稿があったので引用する。 634名無し名人 (ワッチョイ 0234-3XbD)2020/