エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
2002-10-23
強化学習の一つの問題に次元の呪いがある。これは、状態数が指数関数的に増大する傾向のことを指す。ほ... 強化学習の一つの問題に次元の呪いがある。これは、状態数が指数関数的に増大する傾向のことを指す。ほとんどの問題では、状態数が大きすぎて、表形式(配列でQ[S][A]のように価値関数を表す方式)で管理することができなくなる。前にやった迷路はそんなに大きくないので、表形式でできた。 しかし、tic-tac-toeは、○と×があって、置けるところが9個あるから、単純計算で2の9乗くらいある。これでも一般的な問題に比べて全然大きくないが、500個近い配列(しかもその大部分は使わない)を用意しておくのは無駄である。 このようなときには、関数近似という手法を使うのが一般的らしいが、tic-tac-toeで参考にした Sutton, Barto のプログラムはハッシュ法を使っていて少し違うように思っていたのだがやっとわかった。『強化学習』(p.223)にハッシュ法で次元の呪いを解決する話が載っていた。簡単