deejayrokaのブックマーク / 2017年10月20日

deejayroka id:deejayroka

2017年10月20日のブックマーク (5件)

囲碁AI「AlphaGO」の次世代版は、自己対局で「最強」を超えた──その進化の本質と、グーグルの野望
deejayroka 2017/10/20
AlphaGo

人工知能

AI

google

ディープラーニング

囲碁

技術
リンク
TechCrunch | Startup and Technology News
Unlike Light’s older phones, the Light III sports a larger OLED display and an NFC chip to make way for future payment tools, as well as a camera.
deejayroka 2017/10/20
MR

AR

資金調達

スタートアップ
リンク
Googleが出した囲碁ソフト「AlphaGo」の論文を翻訳して解説してみる。 - 7rpn’s blog: うわああああな日常
就活も無事終わったので，一番やりたかったAlpha Goの論文を翻訳しました。ご存知の通り，長らく世界最強だった囲碁棋士イ・セドル九段を破ったGoogleの囲碁プログラムです。論文の内容に触れつつ何となく解説入れていきたいと思います。なるべく囲碁やDeepLearningを知らない初心者の人とかでも仕組みを理解できるように分かりやすく書いていければいいなと思います。原題は"Mastering the game of Go with deep neural networks and tree search"。とりあえず最初の要約の訳から。謎の単語とかは後から説明入れるので，さらっと流し読みしていただければ。囲碁はこれまでAIにとってとても難しいゲームだとみなされてきた。それは探索範囲がとても広いことと，盤面の評価が難しいため。この論文では，コンピュータを用いた囲碁の新しいアプロー
deejayroka 2017/10/20
あとで読む

AlphaGo

モンテカルロ

プログラム

deep learning
リンク
【ここまで分かれば概要を理解できる】強化学習問題の基本的考え方 - HELLO CYBERNETICS
これまでの記事について強化学習の狙いや他の手法との違い強化学習の基本となる行動価値関数基本的なまとめと、この記事を読む上での事前知識強化学習問題強化学習問題の図式化強化学習の簡易版実際の強化学習強化学習問題の概要時間経過を踏まえた図式化方策について強化学習利用に関する話エージェントと環境の堺選択肢の境は、完全な制御が可能かで決める倒立振子ロボット強化学習の目標とユーザーの目標強化学習の目標報酬の設定最後にこれまでの記事について強化学習の狙いや他の手法との違い強化学習がどのようなケースに対応していようとしているのか、強化学習だからこそできる他にはない旨味を抑えておくことで、理解が容易になります。 s0sem0y.hatena blog.com 強化学習の基本となる行動価値関数強化学習では行動価値関数に従って行動の選択を行います。その行動価値関数なるも
deejayroka 2017/10/20
エージェント

ML

強化学習
リンク
強化学習の基本、行動価値関数について - HELLO CYBERNETICS
強化学習での行動評価学習の仕方の違い（上記の記事の軽いおさらい）教師あり学習と教示強化学習と評価評価をするための行動価値関数知識利用と探査行動価値関数行動価値関数の考え方報酬の標本平均漸化式への変形行動価値関数更新の解釈と拡張行動価値関数の更新式指数減衰加重平均更新式オプティミックス初期値最後に強化学習での行動評価今回の記事は下記の記事の続きという感じで書きます。以下の記事は強化学習の想定しているシーンや、その特殊な例であるn本腕バンディット問題などについて紹介しています。 s0sem0y.hatena blog.com 学習の仕方の違い（上記の記事の軽いおさらい）教師あり学習と強化学習の最たる違いは学習の仕方です。どのような情報を元に学習を行うのかが全く異なります。教師あり学習と教示教師あり学習では、あるデータが入力された際にシステムが出力すべき答
deejayroka 2017/10/20
システム

バンディット

人工知能

機械学習

強化学習
リンク
- 2017年10月21日
- 2017年10月20日
- 2017年10月19日