T-norfのブックマーク / 2016年3月15日

AlphaGo の論文をざっくり紹介 - technocrat

31 users
technocrat.hatenablog.com
テクノロジー

ある程度機械学習を知ってる人向けです。わかりやすさ重視でざっくり書くので、詳しいことは本論文をあたって下さい。ちなみに私は囲碁のルールは知りません。元ネタはNature論文です。 http://www.nature.com/nature/journal/v529/n7587/full/nature16961.html とても読みやすい論文だと思います。オープンアクセス版もどっかに転がってたと思います。構成要素 Alpha GOは主に、教師あり方策ネットワークp_\sigma, 強化学習方策ネットワークp_\rho, 状態評価関数ネットワークv(s), からなっており、これらをうまく組み合わせて、モンテカルロ法による指し手評価を効率的に行っているようです。教師あり方策ネットワークp_\sigma 状態s(盤面の石配置など)を入力とし、次の手a(どこに石を置くか)を確率としてp(a|

はてなブックマーク

タグ

2016年3月15日のブックマーク (2件)

DeepMind：AlphaGoをつくった「4億ドルの超知能」はいかにして生まれたのか？

AlphaGo の論文をざっくり紹介 - technocrat

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

今週のはてなブックマーク数ランキング（2024年7月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス