タグ

ブックマーク / technocrat.hatenablog.com (1)

  • AlphaGo の論文をざっくり紹介 - technocrat

    ある程度機械学習を知ってる人向けです。 わかりやすさ重視でざっくり書くので、詳しいことは論文をあたって下さい。 ちなみに私は囲碁のルールは知りません。 元ネタはNature論文です。 http://www.nature.com/nature/journal/v529/n7587/full/nature16961.html とても読みやすい論文だと思います。 オープンアクセス版もどっかに転がってたと思います。 構成要素 AlphaGOは主に、教師あり方策ネットワークp_\sigma, 強化学習方策ネットワークp_\rho, 状態評価関数ネットワークv(s), からなっており、これらをうまく組み合わせて、モンテカルロ法による指し手評価を効率的に行っているようです。 教師あり方策ネットワークp_\sigma 状態s(盤面の石配置など)を入力とし、次の手a(どこに石を置くか)を確率としてp(a|

    AlphaGo の論文をざっくり紹介 - technocrat
    simizut22
    simizut22 2016/03/21
    こういうのもあるのか
  • 1