WCSC27で優勝したelmoがもたらしたのは、たった一行の革命だった。 交差エントロピーで勾配を求めるとき、普通は次式のようになる。 dsig = eval_winrate – teacher_winrate; eval_winrateは、浅い探索(qsearch)の評価値を勝率に変換する関数(シグモイド関数を用いている)で変換したもの。 teacher_winrateは、深い探索(search)の評価値を勝率に変換する関数で変換したもの。 交差エントロピーで勾配を求める場合、上式のように差をとるだけだ。この式の導出については、第4回電王トーナメントのときの白美神のPR文書にある。 elmo式の雑巾絞りはこの式を次のように改良した。 dsig = (eval_winrate -t) + 0.5 * (eval_winrate – teacher_winrate); tはこの局面の手番側が