本記事は、当社オウンドメディア「Doors」に移転しました。 約5秒後に自動的にリダイレクトします。 当社自社開発プロダクト「Rtoaster」のAI機能「conomi-optimize」にも考え方を利用したアルゴリズムが使われている、多腕バンディッド問題。今回のブログでは、多腕バンディッド問題の内容と基本的な解法についてご紹介します! こんにちは、アナリティクスサービス部の小野川です。 今回は多腕バンディット問題と呼ばれる問題の内容とその基本的な解法についてご紹介したいと思います。 多腕バンディット問題概要 多腕バンディット問題とは強化学習に含まれるもので、複数の選択肢のなかからよりよい選択肢、つまりより報酬を得られやすい選択肢を選ぶという問題です。 ビジネス現場でもWeb広告最適化やレコメンドなどで活用しうるもので、活用範囲は幅広くあります。(実は弊社の製品であるRtoasterでもこ
![多腕バンディット問題に触れてみる - Platinum Data Blog by BrainPad](https://cdn-ak-scissors.b.st-hatena.com/image/square/282db11c53b674c610916fa9fbad084cc3ba4025/height=288;version=1;width=512/https%3A%2F%2Fcdn-ak.f.st-hatena.com%2Fimages%2Ffotolife%2Fb%2Fbrainpad-inc%2F20211207%2F20211207095354.jpg)