TensorFlow 勉強会 (4) の発表資料です。 途中の動画を見るには↓の元ファイルを御覧ください。 https://docs.google.com/presentation/d/1CWHjeiDJovG4ymuaoGCFLiBcSHNuNccMQQYkoFtpHxc/pub?start=false&loop=false&delayms=3000Read less
![TensorFlowで逆強化学習](https://cdn-ak-scissors.b.st-hatena.com/image/square/bf81dabf067c480adca4d39a235af271d7f6cea1/height=288;version=1;width=512/https%3A%2F%2Fcdn.slidesharecdn.com%2Fss_thumbnails%2Ftensorflow-160623024846-thumbnail.jpg%3Fwidth%3D640%26height%3D640%26fit%3Dbounds)
TensorFlow 勉強会 (4) の発表資料です。 途中の動画を見るには↓の元ファイルを御覧ください。 https://docs.google.com/presentation/d/1CWHjeiDJovG4ymuaoGCFLiBcSHNuNccMQQYkoFtpHxc/pub?start=false&loop=false&delayms=3000Read less
中川研機械学習勉強会 2007/6/7 Apprenticeship Learning via Inverse Reinforcement Learning by Pieter Abbeel and Andrew Y. Ng (ICML 2004) 吉田 稔 強化学習 Reinforcement Learning • 環境と、そこで行動するエージェントがいるとき、 「エージェントがどのような行動をとればいいか」 を学習する。 – 「状態」と、それを遷移させる「行動」がある。 – Policy(方策、行動則): 「状態」に応じた「行動」を決め る。 – Reward function(報酬関数):状態が望ましいか否か をスコア付けする。 – Value function(価値関数):その状態から、最終的に 望ましい結果になるかどうかをスコア付けする • 現時点の状態のみならず、将来
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く