[B! 強化学習] toshi0907のブックマーク

Lectures on Knowledge Engineering (53240) (in Japanese)

toshi0907 2011/09/20

リンク

https://docs.google.com/viewer?url=http%3A%2F%2Fwww.dbl.k.hosei.ac.jp%2F~miurat%2Freadings%2FMay2708.pdf

toshi0907 2011/09/19

強化学習

リンク

http://nexus-lab.tu.chiba-u.ac.jp/wiki-sarai/index.php?%A5%DE%A5%EB%A5%C1%A5%A8%A1%BC%A5%B8%A5%A7%A5%F3%A5%C8%B6%AF%B2%BD%B3%D8%BD%AC

toshi0907 2011/09/05

リンク

Q-Learning

Q-Learning Q-LearningはTD学習の一つである．ただし，Q-Learningでは状態と行動を一つのセットとして考える．具体的な例をみながら説明をする．以下のように状態が遷移する環境があったとする．ここで，状態と行動をセットにして，評価値をセットする．たとえば，状態1における，行動Aと状態1における行動Bをそれぞれ評価するのである．つまりというように図示することができる．このように，それぞれの状態に，その状態で選択できる行動の数だけ評価値がある．このような状態に関連づけられている行動の評価値がどのように更新されるかを考える．それぞれの評価値をQ値と呼ぶ．Q値の更新式はという形で表される．TD学習では遷移した次の状態の評価値をみるが，Q-Learningではその状態について複数の行動に関連づけられた評価値を持つため，その中で最大のものをみる．実際に状態遷移を繰り返

toshi0907 2011/07/13

Q-Learning

強化学習

リンク

私のブックマーク: マルチエージェントシステム

「わたしのブックマーク：マルチエージェントシステム」名古屋工業大学大学院工学研究科伊藤孝行 itota@ics.nitech.ac.jp 1. はじめに本稿では，マルチエージェントシステムの研究に関連するページを紹介する．ここでは，分散人工知能(DAI)という観点からの関連ページを中心に紹介する．マルチエージェントシステムは，複数のエージェントを対象とした分野である．そのため，単体のエージェントに関するページも深く関連する．単体のエージェントに関するブックマークの紹介として，本連載の「知的エージェント（WWWを中心に）」(http://www.ai-gakkai.or.jp/jsai/journal/mybookmark/14-5.html)がある．本稿の構成は，２章で，マルチエージェントの入門や概要に関するページ，および，様々な関連ページをあつめたポータルサイトを紹介する．３章で

toshi0907 2011/07/07

強化学習

リンク

強化学習とは？(What is Reinforcement Learning?)

強化学習の概要，応用上の利点，適用例，基礎理論，代表的手法，応用に必要な技術などの説明。本ページの記述は下記の解説記事をもとにWEB用に修正したものである：木村元，宮崎和光，小林重信：強化学習システムの設計指針，計測と制御, Vol.38, No.10, pp.618--623 (1999), 計測自動制御学会. 6 pages, postscript file, sice99.ps (1.31MB) PDF file, sice99.pdf (148KB) 第１章：強化学習の概要 1.1 強化学習 (Reinforcement Learning) とは? 1.2 制御の視点から見た強化学習の特徴 1.3 応用上期待できること第２章：強化学習の適用例：ロボットの歩行動作獲得第３章：強化学習の基礎理論 3.1 マルコフ決定過程(Markov decision proc

toshi0907 2011/07/07

強化学習

リンク

動的計画法

ここでは、動的計画法とはなにかを整理します。以下の引用では、入力時間の節約のために送り仮名の間違いや句読点の誤りを放置している箇所がありますがご了承ください。以下、””の間の引用は、岩波数学辞典第四版の「動的計画法」からの引用です。最適化問題のなかには、その過程がいくつもの段階から構成される多段決定問題と見なせる問題が数多く存在する。動的計画法は、多段決定問題を体系的にとりあつかず研究分野であり、1950年以降にR.Bellmanが発展させた理論手法である。動的計画法は、離散最適化問題や組合せ問題に対しても、アルゴリズム設計のパラダイムとしてしばしば使われる。岩波数学辞典第4版ここで重要なのは、動的計画法とはアルゴリズム設計の「パラダイム」であって、特定の計算手順ではない、ということです。したがって、「この問題は動的計画法を使って時刻の早いほうから順番に答えが決まっていきます」、と

toshi0907 2011/07/01

動的計画法

強化学習

リンク

人工知能学会論文誌 (オンライン)

人工知能学会論文誌は，2001年1月に学会誌から分離されオンラインジャーナルとなりました．vol.16 以降の論文がオンラインで参照できます．論文の閲覧方法論文はPDF形式で提供しています． PDFファイルを閲覧するには Acrobat Reader などのPDFファイルリーダをご利用ください． Acrobat Reader は日本語の読めるもの（バージョン3.0日本語版か， 4.0以上で日本語フォントもインストールする）を用意してください．オンラインジャーナル提供システム < http://www.jstage.jst.go.jp/browse/tjsai/-char/ja/ > へアクセスしてください．閲覧方法の詳細な説明書 jsai-olj.pdf(PDF形式) 人工知能学会全国大会論文集第15回 (2001年度) 以降の人工知能学会全国大会の論文集もJ-Stageを通じて

toshi0907 2011/06/30

強化学習

リンク

行動分割型マルチエージェントによる強化学習の高速化 | CiNii Research

toshi0907 2011/06/30

強化学習

リンク

氏　　　　　名　　佐々木　博　光

toshi0907 2011/06/30

強化学習

リンク

私のブックマーク: 強化学習

東京大学総括プロジェクト機構牧野貴樹はじめに試行錯誤を通じて環境に適応する学習・制御の枠組みである強化学習について、内容は知らなくとも、耳にしたことのある方は多いと思います。ロボットの制御における行動選択の要として、また、神経科学における報酬・学習のシステムを理解するための鍵として、多くの研究がすすめられている分野です。ここでは、強化学習の研究に関するページやリソースを紹介します。強化学習入門強化学習とは? http://sysplan.nams.kyushu-u.ac.jp/gen/edu/RL_intro.html 九州大学の木村元先生のページです。web 上で強化学習を日本語で勉強したいなら、ここからはじめるといいでしょう。1999年の記事なので、多少古いですが、考え方を理解する入口としては十分な内容です。 Reinforcement Learning: An In

toshi0907 2011/06/30

強化学習

リンク

はてなブックマーク

タグ

関連タグで絞り込む (2)

強化学習に関するtoshi0907のブックマーク (11)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第4週）

今週のはてなブックマーク数ランキング（2024年7月第3週）

今週のはてなブックマーク数ランキング（2024年7月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス