エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
多腕バンディット入門:3つのアルゴリズムをpythonで実装する
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
多腕バンディット入門:3つのアルゴリズムをpythonで実装する
概要 本記事では多腕バンディット問題の概説と、多腕バンディット問題に対する以下の3つの代表的なアル... 概要 本記事では多腕バンディット問題の概説と、多腕バンディット問題に対する以下の3つの代表的なアルゴリズムをpythonによる実装とともに紹介します。 \epsilon-greedy Upper Confidence Bound Thompson Sampling 最後にそれぞれのアルゴリズムの簡単な比較実験を行います。 ※この記事はこちらに加筆修正を加えたものです。元記事は非公開にしてます。 多腕バンディット問題 いくつかのアーム(スロット)があります。 アームを引くと確率的に報酬がもらえます。ここでは各アームiを引くと確率p_iで1の報酬がもらえ、1-p_iで報酬がもらえないものとします。p_iはアーム毎に異なります。アームを引く人はp_iを知りません。T回アームを引くとき、なるべく多くの報酬をもらいたい、というのが問題設定です。p_iが大きいアームをいかに早く見つけるか、が鍵になりそ