TEiKAのブックマーク - はてなブックマーク

強化学習 - 機械学習の「朱鷺の杜Wiki」
強化学習 (reinforcement learning)† 知識をもった教師からサンプルが与えられるのではなく，環境から与えられる報酬を元に，環境のモデルと報酬を最大化する政策を学習する枠組み． -- しましま強化学習は、ベルマン方程式 \(Q(s,a)=\int Q(s'|a)p(a|\theta)+r_{ss'} p(s'|s,a)da\)のもとで期待報酬和\(\int Q(s,a)p(a|\theta)da\)を最大化する政策θを探す問題として、定式化される。このように定式化された強化学習では、ベルマン方程式を解くことと、最適な政策を探すという２つの操作を同時に行う。ベルマン方程式の解き方によって、モンテカルロ法、TD(λ)、動的計画法と呼び分ける。一方、政策の最適化（サンプリング）は方策オンと方策オフの2つ分類される。応用上の問題点としては次のようなものが挙げられる。状態s
TEiKA 2010/10/07
強化学習

機械学習
リンク
Freeware - 機械学習の「朱鷺の杜Wiki」
統計，機械学習，データマイニングのためのフリーウェアを登録しましょう． ID は ibis でパスワードは VC 次元の V のフルスペルです（頭だけ大文字）大規模でいろいろな機能のある Freeware はこのページにまとめました．その他の単機能の Freeware は各ページにあります．「Freeware」で検索してください．検索:Freeware 目次：(総合) (個別) 詳細情報を別ページにまとめました† 機械学習全般のソフトについて：機械学習#Freeware 関連フリーソフトを掲載している主な項目：最適化, 行列, SVM, グラフィカルモデル, クラスタリング, 自然言語処理, ニューラルネット, 強化学習, 遺伝的アルゴリズム, 隠れMarkovモデル, 自己組織化マップ検索:Freeware：特定の手法をに対する実装は，個別ページにまとめたので検索してください．
TEiKA 2010/07/05
software

Machine Learning
リンク
1

はてなブックマーク

タグ

ブックマーク / ibisforest.org (2)

お知らせ

今週のはてなブックマーク数ランキング（2025年4月第2週）

今週のはてなブックマーク数ランキング（2025年4月第1週）

【復旧済】はてなブックマークへの接続ができない・不安定になる障害が発生していました

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

ブックマーク / ibisforest.org (2)

強化学習 - 機械学習の「朱鷺の杜Wiki」

Freeware - 機械学習の「朱鷺の杜Wiki」

お知らせ

今週のはてなブックマーク数ランキング（2025年4月第2週）

今週のはてなブックマーク数ランキング（2025年4月第1週）

【復旧済】はてなブックマークへの接続ができない・不安定になる障害が発生していました

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス