タグ

2016年3月15日のブックマーク (2件)

  • DeepMind:AlphaGoをつくった「4億ドルの超知能」はいかにして生まれたのか?

    T-norf
    T-norf 2016/03/15
    デミス・ハサビス。この男が世界を獲るかも。未成年の頃から大作ゲーム作ってAIに魅せられ、学業主席、脳科学でも鬼才ぶり発揮して、Googleの資源利用するために会社売却で合流。底がしれないぞ
  • AlphaGo の論文をざっくり紹介 - technocrat

    ある程度機械学習を知ってる人向けです。 わかりやすさ重視でざっくり書くので、詳しいことは論文をあたって下さい。 ちなみに私は囲碁のルールは知りません。 元ネタはNature論文です。 http://www.nature.com/nature/journal/v529/n7587/full/nature16961.html とても読みやすい論文だと思います。 オープンアクセス版もどっかに転がってたと思います。 構成要素 AlphaGOは主に、教師あり方策ネットワークp_\sigma, 強化学習方策ネットワークp_\rho, 状態評価関数ネットワークv(s), からなっており、これらをうまく組み合わせて、モンテカルロ法による指し手評価を効率的に行っているようです。 教師あり方策ネットワークp_\sigma 状態s(盤面の石配置など)を入力とし、次の手a(どこに石を置くか)を確率としてp(a|

    AlphaGo の論文をざっくり紹介 - technocrat
    T-norf
    T-norf 2016/03/15
    助かる良記事。とてもシンプルで、計算資源ぶっこんだとしても、これで最強というのが凄い。確かにCNNが何を学習してるか、どう改良するとどうなるとか気になる。逆に言うとまだまだ発展余地あるよね