Q-Learning Q-LearningはTD学習の一つである.ただし,Q-Learningでは状態と行動を一つのセットとして考える.具体的な例をみながら説明をする. 以下のように状態が遷移する環境があったとする. ここで,状態と行動をセットにして,評価値をセットする.たとえば,状態1における,行動Aと状態1における行動Bをそれぞれ評価するのである.つまり というように図示することができる.このように,それぞれの状態に,その状態で選択できる行動の数だけ評価値がある. このような状態に関連づけられている行動の評価値がどのように更新されるかを考える.それぞれの評価値をQ値と呼ぶ.Q値の更新式は という形で表される.TD学習では遷移した次の状態の評価値をみるが,Q-Learningではその状態について複数の行動に関連づけられた評価値を持つため,その中で最大のものをみる. 実際に状態遷移を繰り返
「わたしのブックマーク:マルチエージェントシステム」名古屋工業大学大学院工学研究科 伊藤孝行 itota@ics.nitech.ac.jp 1. はじめに本稿では,マルチエージェントシステムの研究に関連するページを紹介する.ここでは,分散人工知能(DAI)という観点からの関連ページを中心に紹介する.マルチエージェントシステムは,複数のエージェントを対象とした分野である.そのため,単体のエージェントに関するページも深く関連する.単体のエージェントに関するブックマークの紹介として,本連載の「知的エージェント(WWWを中心に)」(http://www.ai-gakkai.or.jp/jsai/journal/mybookmark/14-5.html)がある. 本稿の構成は,2章で,マルチエージェントの入門や概要に関するページ,および,様々な関連ページをあつめたポータルサイトを紹介する.3章で
強化学習の概要,応用上の利点,適用例,基礎理論,代表的手法,応用に必要な技術などの説明。 本ページの記述は下記の解説記事をもとにWEB用に修正したものである: 木村 元,宮崎 和光,小林 重信: 強化学習システムの設計指針, 計測と制御, Vol.38, No.10, pp.618--623 (1999), 計測自動制御学会. 6 pages, postscript file, sice99.ps (1.31MB) PDF file, sice99.pdf (148KB) 第1章: 強化学習の概要 1.1 強化学習 (Reinforcement Learning) とは? 1.2 制御の視点から見た強化学習の特徴 1.3 応用上期待できること 第2章: 強化学習の適用例:ロボットの歩行動作獲得 第3章: 強化学習の基礎理論 3.1 マルコフ決定過程(Markov decision proc
ここでは、動的計画法とはなにかを整理します。以下の引用では、入力時間の節約のために送り仮名の間違いや句読点の誤りを放置している箇所がありますがご了承ください。以下、””の間の引用は、岩波数学辞典第四版の「動的計画法」からの引用です。 最適化問題のなかには、その過程がいくつもの段階から構成される多段決定問題と見なせる問題が数多く存在する。 動的計画法は、多段決定問題を体系的にとりあつかず研究分野であり、1950年以降にR.Bellmanが発展させた理論手法である。動的計画法は、離散最適化問題や組合せ問題に対しても、アルゴリズム設計のパラダイムとしてしばしば使われる。 岩波数学辞典第4版 ここで重要なのは、動的計画法とはアルゴリズム設計の「パラダイム」であって、特定の計算手順ではない、ということです。したがって、「この問題は動的計画法を使って時刻の早いほうから順番に答えが決まっていきます」、と
人工知能学会論文誌は,2001年1月に学会誌から分離されオンラインジャーナルとなりました.vol.16 以降の論文がオンラインで参照できます. 論文の閲覧方法 論文はPDF形式で提供しています. PDFファイルを閲覧するには Acrobat Reader などのPDFファイルリーダをご利用ください. Acrobat Reader は日本語の読めるもの(バージョン3.0日本語版か, 4.0以上で日本語フォントもインストールする)を用意してください. オンラインジャーナル提供システム < http://www.jstage.jst.go.jp/browse/tjsai/-char/ja/ > へアクセスしてください. 閲覧方法の詳細な説明書 jsai-olj.pdf(PDF形式) 人工知能学会全国大会論文集 第15回 (2001年度) 以降の人工知能学会全国大会の論文集もJ-Stageを通じて
東京大学 総括プロジェクト機構 牧野 貴樹 はじめに 試行錯誤を通じて環境に適応する学習・制御の枠組みである強化学習について、内容は知らなくとも、耳にしたことのある方は多いと思います。ロボットの制御における行動選択の要として、また、神経科学における報酬・学習のシステムを理解するための鍵として、多くの研究がすすめられている分野です。 ここでは、強化学習の研究に関するページやリソースを紹介します。 強化学習入門 強化学習とは? http://sysplan.nams.kyushu-u.ac.jp/gen/edu/RL_intro.html 九州大学の木村 元先生のページです。web 上で強化学習を日本語で勉強したいなら、ここからはじめるといいでしょう。1999年の記事なので、多少古いですが、考え方を理解する入口としては十分な内容です。 Reinforcement Learning: An In
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く