タグ

2010年10月7日のブックマーク (2件)

  • National Programme on Technology Enhanced Learning(NPTel) Home

    The main objective of NPTEL program is to enhance the quality of engineering education in the country by developing curriculum based video and web courses. This is being carried out by seven IITs and IISc Bangalore as a collaborative project. In the first phase of the project, supplementary content for 129 web courses in engineering/science and humanities have been developed. Each course contains

  • 強化学習 - 機械学習の「朱鷺の杜Wiki」

    強化学習 (reinforcement learning)† 知識をもった教師からサンプルが与えられるのではなく,環境から与えられる報酬を元に,環境のモデルと報酬を最大化する政策を学習する枠組み. -- しましま 強化学習は、ベルマン方程式 \(Q(s,a)=\int Q(s'|a)p(a|\theta)+r_{ss'} p(s'|s,a)da\)のもとで期待報酬和\(\int Q(s,a)p(a|\theta)da\)を最大化する政策θを探す問題として、定式化される。このように定式化された強化学習では、ベルマン方程式を解くことと、最適な政策を探すという2つの操作を同時に行う。ベルマン方程式の解き方によって、モンテカルロ法、TD(λ)、動的計画法と呼び分ける。一方、政策の最適化(サンプリング)は方策オンと方策オフの2つ分類される。 応用上の問題点としては次のようなものが挙げられる。 状態s