小宮山純平(東京大学 生産技術研究所) はじめに多腕バンディット問題(バンディット問題, multi-armed bandit problem)は、複数のアームと呼ばれる候補から最も良いものを逐次的に探す問題である。 アームという奇妙な単語はこの問題のもとになったスロットマシン(バンディットマシン)の比喩から来ている。 予測者はいくつかのスロットマシンを与えられ、それぞれのスロットマシンを引くと対応した報酬が得られる。繰り返す試行(アームの選択)を通じて得られる報酬を最大化するのが、予測者の目標である。 報酬を最大化するという点で、バンディット問題は強化学習のカテゴリに属する。 実際、Suttonらによる強化学習のクラシックな教科書[2]でも、バンディット問題は小節を割き説明されている。 アームは、強化学習の分野ではアクションもしくはコントロールと呼ばれることがある。 バンディット問題の予