前回の日記で、ブートストラップについて少し書いたが、1000万局面では効果がわからなかったので、局面を増やして再度検証した。 ブートストラップ 前回も書いたが、本来の報酬(勝敗)とは別の推定量(探索結果の評価値)を用いてパラメータを更新する手法をブートストラップという。 elmo_for_learnで生成したデータには、局面の探索結果の評価値が含まれているので、バリューネットワークの値をその評価値に近づけるように学習することで、学習の効率を上げることができると思われる。 経験的にブートストラップ手法は、非ブートストラップ手法より性能が良いことが知られている。 ブートストラップ項を加えた損失関数 elmoと同様に、ブートストラップ項の損失には、2確率変数の交差エントロピーを使用する。 バリューネットワークの値を、探索結果の評価値をシグモイド関数で勝率に変換した値をとした場合、交差エントロピー