概要 本記事では多腕バンディット問題の概説と、多腕バンディット問題に対する以下の3つの代表的なアルゴリズムをpythonによる実装とともに紹介します。 \epsilon-greedy Upper Confidence Bound Thompson Sampling 最後にそれぞれのアルゴリズムの簡単な比較実験を行います。 ※この記事はこちらに加筆修正を加えたものです。元記事は非公開にしてます。 多腕バンディット問題 いくつかのアーム(スロット)があります。 アームを引くと確率的に報酬がもらえます。ここでは各アームiを引くと確率p_iで1の報酬がもらえ、1-p_iで報酬がもらえないものとします。p_iはアーム毎に異なります。アームを引く人はp_iを知りません。T回アームを引くとき、なるべく多くの報酬をもらいたい、というのが問題設定です。p_iが大きいアームをいかに早く見つけるか、が鍵になりそ