[B! Research][強化学習] Kshi_Kshiのブックマーク

Kshi_Kshi id:Kshi_Kshi

Researchと強化学習に関するKshi_Kshiのブックマーク (3)

強化学習とは？(What is Reinforcement Learning?)
強化学習の概要，応用上の利点，適用例，基礎理論，代表的手法，応用に必要な技術などの説明。本ページの記述は下記の解説記事をもとにWEB用に修正したものである：木村元，宮崎和光，小林重信：強化学習システムの設計指針，計測と制御, Vol.38, No.10, pp.618--623 (1999), 計測自動制御学会. 6 pages, postscript file, sice99.ps (1.31MB) PDF file, sice99.pdf (148KB) 第１章：強化学習の概要 1.1 強化学習 (Reinforcement Learning) とは? 1.2 制御の視点から見た強化学習の特徴 1.3 応用上期待できること第２章：強化学習の適用例：ロボットの歩行動作獲得第３章：強化学習の基礎理論 3.1 マルコフ決定過程(Markov decision proc
Kshi_Kshi 2011/12/31
Research

強化学習
リンク
私のブックマーク: 強化学習
東京大学総括プロジェクト機構牧野貴樹はじめに試行錯誤を通じて環境に適応する学習・制御の枠組みである強化学習について、内容は知らなくとも、耳にしたことのある方は多いと思います。ロボットの制御における行動選択の要として、また、神経科学における報酬・学習のシステムを理解するための鍵として、多くの研究がすすめられている分野です。ここでは、強化学習の研究に関するページやリソースを紹介します。強化学習入門強化学習とは? http://sysplan.nams.kyushu-u.ac.jp/gen/edu/RL_intro.html 九州大学の木村元先生のページです。web 上で強化学習を日本語で勉強したいなら、ここからはじめるといいでしょう。1999年の記事なので、多少古いですが、考え方を理解する入口としては十分な内容です。 Reinforcement Learning: An In
Kshi_Kshi 2011/10/30
Link

Research

強化学習
リンク
強化学習 - 機械学習の「朱鷺の杜Wiki」
強化学習 (reinforcement learning)† 知識をもった教師からサンプルが与えられるのではなく，環境から与えられる報酬を元に，環境のモデルと報酬を最大化する政策を学習する枠組み． -- しましま強化学習は、ベルマン方程式 \(Q(s,a)=\int Q(s'|a)p(a|\theta)+r_{ss'} p(s'|s,a)da\)のもとで期待報酬和\(\int Q(s,a)p(a|\theta)da\)を最大化する政策θを探す問題として、定式化される。このように定式化された強化学習では、ベルマン方程式を解くことと、最適な政策を探すという２つの操作を同時に行う。ベルマン方程式の解き方によって、モンテカルロ法、TD(λ)、動的計画法と呼び分ける。一方、政策の最適化（サンプリング）は方策オンと方策オフの2つ分類される。応用上の問題点としては次のようなものが挙げられる。状態s
Kshi_Kshi 2011/10/30
Research

強化学習
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx