■ はじめに ■ 強化学習とは,試行錯誤を通じて未知の環境に適応する学習制御の枠組である. 一般的な教師付き学習(Supervised learning)とは異なり,強化学習では状態入力に対する正しい行動出力を明示的に示す教師が存在せず, かわりに報酬というスカラーの情報を手がかりに学習する. 環境との相互作用の繰り返しを通じて, 最適または合理的な政策を学習することが強化学習の目的とされる. 離散マルコフ決定過程を対象とする従来の強化学習の研究は, Dynamic Programmingを基礎とするQ-learningとその発展形が中心であったが, 本研究室では経験強化型のProfit Sharingの潜在能力に着目し, 合理的政策の獲得を保証する強化の条件を明らかにするとともに, 効率的な環境同定手法を提案している. 現実の問題では,環境の状態を完全に観測することは困難
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く