はじめに 本エントリではバンディットアルゴリズムの各手法について,実際のユースケースを想定したシミュレーションを行うことで,それぞれの手法の特徴を把握すること目的とします. バンディットアルゴリズムについて日本語でよく参照されているのは以下のQiitaの投稿でしょうか. http://qiita.com/yuku_t/items/6844aac6008911401b19 また以下の資料では各手法の詳細や特徴,簡単なシミュレーションも紹介されています. http://www.slideshare.net/greenmidori83/ss-28443892 上記の資料の手法の紹介はとてもわかりやすいので本エントリでは手法の紹介は特にしません. 想定するユースケース あなたは今1万回表示されてクリック率が1.2%出ている広告を1クリック60円で運用しています. もっとクリックされる広告を見つける
Speeeエンジニアの義田@yoppiblogです。 最近はUZOUのレコメンドエンジンを作っています。 前回、UZOUというアドネットワークのプロダクトで運用している文書間類似度によるレコメンドシステムを紹介しました。 今回は、記事レコメンドではなく、UZOUにおける広告レコメンドにおけるアルゴリズムの紹介と実装及び適用した結果を紹介します。 アルゴリズムには、よく知られている「多腕バンディット問題」を採用しUZOUに適用できる形で解きました。 また、勉強会で発表したスライドも合わせて読んでいただくとイメージしやすい思います。 オレシカナイト#6にて発表した内容になります。 背景と問題 UZOUはアドネットワークなので、広告代理店さん(広告主さん)から広告が入稿されそれをUZOUが導入されているメディアさんに配信します。 記事レコメンド同様、 適当に 広告を選んで配信していたのではユーザ
39. 実際の使用イメージ 試行数 アーム1期待値 アーム2期待値 アーム3期待値 活用or探索 0(0/0) 0(0/0) 1 1(1/1) 0(0/0) 2 1(1/1) 0(0/1) 3 1(1/1) 0(0/1) 4 1(2/2) 0(0/1) 5 1(2/2) 0.5(1/2) 6 1(2/2) 0.5(1/2) 7 8 0.66(2/3) 0.5(1/2) 9 0.5(2/4) 0.5(1/2) 10 0.4(2/5) 0.5(1/2) 0(0/0) 0(0/0) 0(0/0) 0(0/1) 0(0/0) 0(0/0) 0(0/2) 0(0/2) 0(0/2) 0(0/2) ・・・最も期待値の高いアーム 39 探索 探索 探索 探索 探索 探索 活用 活用 活用 活用 ランダム選択 引くアーム 結果 1 2 3 1 2 3 - アーム1 アーム2 アーム3 アーム1 アーム2
Jubatus0.7.0についにBanditアルゴリズムが実装されたのですが、漸近最適なアルゴリズムがまだ実装されていないので、Thompson sampling (TS) を実装してみました。 TSの詳細はThompson sampling - Wikipedia, the free encyclopediaなどに詳しいです。TSはThompsonさんが1930年に提案された最も古いアルゴリズムの1つなのですが、バンディット業界ではUCBなどと比べるとほとんど知られていませんでした。Googleの中の人がABテストに利用したことや、NIPS2011でTSの性能を他のアルゴリズムと比較した論文が出版され、圧倒的に性能が良いことが示されたことでTSは一躍注目をされるようになりました。理論的にも、TSは漸近最適なアルゴリズム*1の1つとして知られています。このアルゴリズムはベイズ推定に基づくた
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く