[B! reinforcement learning] zyxwvのブックマーク

TensorFlowで逆強化学習

TensorFlow 勉強会 (4) の発表資料です。途中の動画を見るには↓の元ファイルを御覧ください。 https://docs.google.com/presentation/d/1CWHjeiDJovG4ymuaoGCFLiBcSHNuNccMQQYkoFtpHxc/pub?start=false&loop=false&delayms=3000

zyxwv 2018/03/21

強化学習：最適の定義→最適な行動。逆強化学習：最適な行動→最適の定義。どんな報酬で動いているかわからないシステムの動作から、報酬を推定する。

reinforcement learning

リンク

DQNの生い立ち　＋　Deep Q-NetworkをChainerで書いた - Qiita

はじめにそもそもDQNが作りたかったわけじゃなくて、他の目的でChainerを使いたかったのでその練習にDQNを書いたんですが、せっかくだし公開しようと思いました公開しました。またどうせ公開するなら、この機会にこれ（Q学習+関数近似）関連で持っている知識をついでに整理しようと思ってまとめました。ニュース記事とかNatureとかNIPSの論文だけ読むと、DQN作ったDeepmind/Googleすげー！！！って感覚になりそうですが、強化学習的な歴史的経緯を考えると強化学習+深層学習になった、むしろかなり当然の成り行きで生まれた技術であることがわかります。（ATARIのゲームを人間以上のパフォーマンスでプレイするというのがビジュアル的にわかりやすかった$\leftrightarrow$問題設定が良かったというのもあります。）この記事ではNIPSとNatureの以下の２本の論文・ V

zyxwv 2016/06/14

Q 学習→Q network→DQN の順。Q network は関数 Q(s,a) を(複数の)パラメタ θ からなるものとして、θ を学習する。学習にはニューラルネットを使う。

リンク

Pythonで Q学習を実装する

Deep Q-Networkについて調べてみたら面白い記事を見つけました。 DQNの生い立ち　＋　Deep Q-NetworkをChainerで書いた http://qiita.com/Ugo-Nama/it ems/08c6a5f6a571335972d5 この記事を読んで、Deep Q-Networkが Q学習 -> Q-Network -> Deep Q-Network という流れ生まれたものだということがわかりました。この流れをPythonで実装しながら辿ってみようと思います。今回はQ学習を実装します。 Q学習について下記のページに詳しく載っているので割愛します。強化学習 http://www.sist.ac.jp/~kanakubo/research/reinforcement_learning.html 強化学習とは？ http://sysplan.nams.kyushu-

zyxwv 2016/06/14

Q 学習(Python)

reinforcement learning

リンク

はてなブログ | 無料ブログを作成しよう

オーベルジーヌ実食レポ食べ物の鼻塩塩(未だに通じるのかな) オーベルジーヌというカレーをご存知だろうか都内にあるデリバリー専門のカレー屋で、ロケ弁などで大人気の本格欧風カレーが楽しめるらしいいいな〜いいな〜オブザイヤー都内の奴らはこんな良いモン食ってんのか許せねえよ………

zyxwv 2016/06/14

Q 学習のサンプルコード(Java)

リンク

ゼロからDeepまで学ぶ強化学習 - Qiita

ロボットから自動運転車、はては囲碁・将棋といったゲームまで、昨今多くの「AI」が世間をにぎわせています。その中のキーワードとして、「強化学習」というものがあります。そうした意味では、数ある機械学習の手法の中で最も注目されている(そして誇張されている・・・)手法ともいえるかもしれません。今回はその強化学習という手法について、基礎から最近目覚ましい精度を出しているDeep Q-learning(いわゆるドキュン、DQNです)まで、その発展の流れと仕組みについて解説をしていきたいと思います。本記事の内容をベースに、ハンズオンイベントを開催しました(PyConJPのTalkの増補改訂版) Pythonではじめる強化学習 OpenAI Gym 体験ハンズオン講義資料の方が図解が豊富なので、数式とかちょっと、という場合はこちらがおすすめです。 Tech-Circle #18 Pythonではじ

zyxwv 2016/06/08

リンク

はてなブックマーク

タグ

関連タグで絞り込む (3)

reinforcement learningに関するzyxwvのブックマーク (5)

お知らせ

今週のはてなブックマーク数ランキング（2024年6月第3週）

今週のはてなブックマーク数ランキング（2024年6月第2週）

月間はてなブックマーク数ランキング（2024年5月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

関連タグで絞り込む (3)

reinforcement learningに関するzyxwvのブックマーク (5)

TensorFlowで逆強化学習

DQNの生い立ち ＋ Deep Q-NetworkをChainerで書いた - Qiita

Pythonで Q学習 を実装する

はてなブログ | 無料ブログを作成しよう

ゼロからDeepまで学ぶ強化学習 - Qiita

お知らせ

今週のはてなブックマーク数ランキング（2024年6月第3週）

今週のはてなブックマーク数ランキング（2024年6月第2週）

月間はてなブックマーク数ランキング（2024年5月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

DQNの生い立ち　＋　Deep Q-NetworkをChainerで書いた - Qiita

Pythonで Q学習を実装する