ブックマーク / yamaimo.hatenablog.jp (2)

  • 強化学習について学んでみた。(その8) - いものやま。

    昨日はグリーディ法とグリーディ法を扱った。 今日はn腕バンディット問題に対する別のアルゴリズムを考えていく。 ソフトマックス法 グリーディ法では、探査を行うために、の確率でランダムに行動を選択していた。 もう一つ、探査を行うための方法として、推定される行動の価値の比率に応じて行動を選択するという方法が考えられる。 すなわち、推定される行動の価値から、価値が高そうな行動はより選ばれやすく、価値が低そうな行動は選ばれにくく(けど、全く選ばれないわけではないように)なる確率にしたがって行動を選択する。 そうすれば、基的には価値が高いと思われる行動が選ばれ、たまに他の行動の探査も行われるようになる。 このようなアルゴリズムを、ソフトマックス法(ソフトマックス行動選択)と呼ぶ。 ソフトマックス法の具体的な方策(ポリシー)の一つは、次のようになる。 上記のは温度と呼ばれる学習パラメータで、温度が高

    強化学習について学んでみた。(その8) - いものやま。
    goodtime683
    goodtime683 2017/10/19
    “# 得られた報酬を反映し、学習する。 # -- # selected: 選んだ腕 # value: 得られた報酬”
  • 強化学習について学んでみた。(その1) - いものやま。

    ゲームを作っていくときに必要となるのが、AIの作成。 変種オセロを作っているときにもいくつかの探索アルゴリズムを実装したけれど、盤面の評価については単純に「出来るだけ自分の色が多く、そして相手の色が少ない方がいい」としただけだった。 ただ、これだと辺や隅をとることの重要性をまったく理解できず、人に簡単に辺や隅を取られてしまう。 なので、途中までは実利が大きくても、最後には辺や隅の力で実利がひっくり返されるということがよく起きて、なかなか勝てなかったりする。 そこで、AIをより強くするには、盤面をより正確に評価できるようにする必要がある。 盤面の評価方法 盤面をどのように評価するかーーすなわち、盤面の評価関数をどのように作るかーーというのには、いくつかの方法が考えられる。 人の手による方法 まず考えられるのは、盤面の特徴的な値に対して、それぞれ評価の重みを決めておき、それらを掛けて合算した値

    強化学習について学んでみた。(その1) - いものやま。
  • 1