[B! dnn][shogi] thorikawaのブックマーク

thorikawa id:thorikawa

dnnとshogiに関するthorikawaのブックマーク (1)

将棋でディープラーニングするその39(ブートストラップ) - TadaoYamaokaの開発日記
前回の日記で、ブートストラップについて少し書いたが、1000万局面では効果がわからなかったので、局面を増やして再度検証した。ブートストラップ前回も書いたが、本来の報酬（勝敗）とは別の推定量（探索結果の評価値）を用いてパラメータを更新する手法をブートストラップという。 elmo_for_learnで生成したデータには、局面の探索結果の評価値が含まれているので、バリューネットワークの値をその評価値に近づけるように学習することで、学習の効率を上げることができると思われる。経験的にブートストラップ手法は、非ブートストラップ手法より性能が良いことが知られている。ブートストラップ項を加えた損失関数 elmoと同様に、ブートストラップ項の損失には、2確率変数の交差エントロピーを使用する。バリューネットワークの値を、探索結果の評価値をシグモイド関数で勝率に変換した値をとした場合、交差エントロピー
thorikawa 2017/06/28
dnn

shogi
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx