goodtime683のブックマーク - はてなブックマーク

強化学習について学んでみた。（その8） - いものやま。
昨日はグリーディ法とグリーディ法を扱った。今日はn本腕バンディット問題に対する別のアルゴリズムを考えていく。ソフトマックス法グリーディ法では、探査を行うために、の確率でランダムに行動を選択していた。もう一つ、探査を行うための方法として、推定される行動の価値の比率に応じて行動を選択するという方法が考えられる。すなわち、推定される行動の価値から、価値が高そうな行動はより選ばれやすく、価値が低そうな行動は選ばれにくく（けど、全く選ばれないわけではないように）なる確率にしたがって行動を選択する。そうすれば、基本的には価値が高いと思われる行動が選ばれ、たまに他の行動の探査も行われるようになる。このようなアルゴリズムを、ソフトマックス法（ソフトマックス行動選択）と呼ぶ。ソフトマックス法の具体的な方策（ポリシー）の一つは、次のようになる。上記のは温度と呼ばれる学習パラメータで、温度が高
goodtime683 2017/10/19
“# 得られた報酬を反映し、学習する。 # -- # selected: 選んだ腕 # value: 得られた報酬”

強化学習
リンク
強化学習について学んでみた。（その1） - いものやま。
ゲームを作っていくときに必要となるのが、AIの作成。変種オセロを作っているときにもいくつかの探索アルゴリズムを実装したけれど、盤面の評価については単純に「出来るだけ自分の色が多く、そして相手の色が少ない方がいい」としただけだった。ただ、これだと辺や隅をとることの重要性をまったく理解できず、人に簡単に辺や隅を取られてしまう。なので、途中までは実利が大きくても、最後には辺や隅の力で実利がひっくり返されるということがよく起きて、なかなか勝てなかったりする。そこで、AIをより強くするには、盤面をより正確に評価できるようにする必要がある。盤面の評価方法盤面をどのように評価するかーーすなわち、盤面の評価関数をどのように作るかーーというのには、いくつかの方法が考えられる。人の手による方法まず考えられるのは、盤面の特徴的な値に対して、それぞれ評価の重みを決めておき、それらを掛けて合算した値
goodtime683 2017/10/12
強化学習

機械学習
リンク
1

はてなブックマーク

タグ

ブックマーク / yamaimo.hatenablog.jp (2)

お知らせ

今週のはてなブックマーク数ランキング（2024年6月第3週）

今週のはてなブックマーク数ランキング（2024年6月第2週）

月間はてなブックマーク数ランキング（2024年5月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

ブックマーク / yamaimo.hatenablog.jp (2)

強化学習について学んでみた。（その8） - いものやま。

強化学習について学んでみた。（その1） - いものやま。

お知らせ

今週のはてなブックマーク数ランキング（2024年6月第3週）

今週のはてなブックマーク数ランキング（2024年6月第2週）

月間はてなブックマーク数ランキング（2024年5月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス