タグ

2022年6月2日のブックマーク (1件)

  • 多腕バンディット入門:3つのアルゴリズムをpythonで実装する

    概要 記事では多腕バンディット問題の概説と、多腕バンディット問題に対する以下の3つの代表的なアルゴリズムをpythonによる実装とともに紹介します。 \epsilon-greedy Upper Confidence Bound Thompson Sampling 最後にそれぞれのアルゴリズムの簡単な比較実験を行います。 ※この記事はこちらに加筆修正を加えたものです。元記事は非公開にしてます。 多腕バンディット問題 いくつかのアーム(スロット)があります。 アームを引くと確率的に報酬がもらえます。ここでは各アームiを引くと確率p_iで1の報酬がもらえ、1-p_iで報酬がもらえないものとします。p_iはアーム毎に異なります。アームを引く人はp_iを知りません。T回アームを引くとき、なるべく多くの報酬をもらいたい、というのが問題設定です。p_iが大きいアームをいかに早く見つけるか、が鍵になりそ

    多腕バンディット入門:3つのアルゴリズムをpythonで実装する