タグ

ブックマーク / ibisforest.org (2)

  • 強化学習 - 機械学習の「朱鷺の杜Wiki」

    強化学習 (reinforcement learning)† 知識をもった教師からサンプルが与えられるのではなく,環境から与えられる報酬を元に,環境のモデルと報酬を最大化する政策を学習する枠組み. -- しましま 強化学習は、ベルマン方程式 \(Q(s,a)=\int Q(s'|a)p(a|\theta)+r_{ss'} p(s'|s,a)da\)のもとで期待報酬和\(\int Q(s,a)p(a|\theta)da\)を最大化する政策θを探す問題として、定式化される。このように定式化された強化学習では、ベルマン方程式を解くことと、最適な政策を探すという2つの操作を同時に行う。ベルマン方程式の解き方によって、モンテカルロ法、TD(λ)、動的計画法と呼び分ける。一方、政策の最適化(サンプリング)は方策オンと方策オフの2つ分類される。 応用上の問題点としては次のようなものが挙げられる。 状態s

  • Freeware - 機械学習の「朱鷺の杜Wiki」

    統計,機械学習,データマイニングのためのフリーウェアを登録しましょう. ID は ibis でパスワードは VC 次元の V のフルスペルです(頭だけ大文字) 大規模でいろいろな機能のある Freeware はこのページにまとめました. その他の単機能の Freeware は各ページにあります.「Freeware」で検索してください. 検索:Freeware 目次:(総合) (個別) 詳細情報を別ページにまとめました† 機械学習全般のソフトについて:機械学習#Freeware 関連フリーソフトを掲載している主な項目: 最適化, 行列, SVM, グラフィカルモデル, クラスタリング, 自然言語処理, ニューラルネット, 強化学習, 遺伝的アルゴリズム, 隠れMarkovモデル, 自己組織化マップ 検索:Freeware:特定の手法をに対する実装は,個別ページにまとめたので検索してください.

  • 1