[B! bandit] muddydixonのブックマーク

muddydixon id:muddydixon

banditに関するmuddydixonのブックマーク (11)

広告レコメンドにおける多腕バンディット問題の適用とその解法 - Speee DEVELOPER BLOG
Speeeエンジニアの義田@yoppiblogです。最近はUZOUのレコメンドエンジンを作っています。前回、UZOUというアドネットワークのプロダクトで運用している文書間類似度によるレコメンドシステムを紹介しました。今回は、記事レコメンドではなく、UZOUにおける広告レコメンドにおけるアルゴリズムの紹介と実装及び適用した結果を紹介します。アルゴリズムには、よく知られている「多腕バンディット問題」を採用しUZOUに適用できる形で解きました。また、勉強会で発表したスライドも合わせて読んでいただくとイメージしやすい思います。オレシカナイト#6にて発表した内容になります。背景と問題 UZOUはアドネットワークなので、広告代理店さん（広告主さん）から広告が入稿されそれをUZOUが導入されているメディアさんに配信します。記事レコメンド同様、適当に広告を選んで配信していたのではユーザ
muddydixon 2018/08/17
bandit

algorithms

optimization
リンク
Jubatus 0.7.0 Released.
熊崎です。本日めでたくJubatus0.7.0をリリースしましたのでお知らせします。本リリースではBanditアルゴリズムを新たに加えました。また、一部のアルゴリズムで以前と異なる結果を返すようになりました(idf周りのバグ修正やAnomalyでのunlearnerの挙...
muddydixon 2015/02/24
jubatus

bandit
リンク
多腕バンディットによる表示コンテンツの最適化 - クックパッド開発者ブログ
こんにちは。技術部検索グループの原島です。上の画像は、スマートフォン（ブラウザ版）で見たクックパッドの検索結果ページです。レシピだけでなく、ニュースも表示されていますね。献立や掲示板のスレッドなどが表示されることもあります。クックパッドでは、検索結果ページに表示するコンテンツをクエリなどに応じて最適化しています。最適化は、膨大なログデータと最新の機械学習を用いることで、実現しています。このエントリでは、クックパッドにおけるコンテンツ最適化の裏側を紹介します。最適化の背景スマートフォンの普及に伴って、ユーザが利用するプラットフォームは PC からモバイルにシフトしつつあります。クックパッドにおけるモバイル利用者の割合も、ここ 2 年で 10% 以上増加しました。最近では、60% 以上のユーザがモバイルからアクセスしています。ユーザの利用形態が変化すれば、検索結果ページもその変化に対
muddydixon 2014/10/29
bandit

cookpad

tuning
リンク
意訳：2009年から2014年の機械学習の理論的進歩について教えてください - Dust Theory
Quoraに投稿された質問 "What has happened in theoretical machine learning in the last 5 years (2009-2014)?" 「2009年から2014年の機械学習の理論的進歩について教えてください」への、機械学習研究者Yisong Yueの回答を翻訳しました。そのままだと通じない部分は意訳しているので、原文に忠実ではありません。「2009年から2014年の機械学習の理論的進歩について教えてください」への回答私の個人的な視点で話します。潜在変数モデルに対する最適推定について: 理論的な進歩として私が最初に思いつくのは、潜在変数モデルに対する（ほぼ）最適な推定です。この潜在変数モデルの最適推定は一般的に非凸な問題であり、つまり（よく知られている）凸最適化の手法の通用しない難題です。最も輝かしいアプローチはスペクト
muddydixon 2014/04/04
machinelearning

bandit
リンク
バンディットアルゴリズムのシミュレータを作ってみました
お手軽に各種バンディットアルゴリズムの特性・性能を比較することができる Web ベースのバンディットアルゴリズムシミュレータを、Yeoman, Bower, Grunt, D3.js, NVD3.js, AngularJS, Bootstrap なんかを使って作ってみましたよ、というお話です。デモサイト＆ソースコードシミュレータのデモサイトとソースコードはそれぞれ以下になります。デモサイト : http://playground.k11i.biz/bandit-simulator/ ソースコード : https://github.com/komiya-atsushi/bandit-simulator 動機とあるお仕事で各種バンディットアルゴリズムの特性を調査・検証したことがあって、そのときは Java で各種アルゴリズム＆シミュレータを実装 → TSV ファイルにシミュレーション結
muddydixon 2014/04/01
bandit

simulation

algorithms
リンク
多腕バンディット問題とUCB解説
以下は登場する数式を(なるべく)直感的に(厳密性をけっこう犠牲にして)解釈したもの。数式多め。簡単のため台は２個とします（K=2）。補足１収入をxとして、期待値がベストな台の収入の確率分布を、ベストでない適当な台iの収入の確率分布をとします。このとき分布をもつベストな台があたかもベストでない台であるかのような振舞いを示す確率というのは漸近的にで与えられるという理論があります（大偏差原理。Dは相互情報量で、分布から見た分布の「遠さ」を表す）。さて現状で平均収入がベストだったのが台0だったとして、そのプレイ回数を、(理論的な)期待値をとします。また、もう一方の台1のプレイ回数を、期待値をとします(基本的には平均収入が多い台をプレイしていくため)。ここで「台1が実はベスト」ということの「確率」はどれくらいか？ということを考えてみます。台１に比べて台０は十分試行回数が大きいため、台０は
muddydixon 2014/02/10
ucb

bandit
リンク
School of Computer Science
Breaking new ground in the theory and practice of computational systems and their applications, the School of Computer Science is a progressive, inclusive department, providing specialist teaching and conducting world-leading research in fundamental and applied computer science. The Research Excellence Framework 2021 ranked us 3rd in the UK for GPA and for 4* research. Our research areas include,
muddydixon 2013/12/03
presentation

bandit

ucb1
リンク
バンディットアルゴリズム入門と実践
39. 実際の使用イメージ試行数アーム1期待値アーム2期待値アーム3期待値活用or探索 0(0/0) 0(0/0) 1 1(1/1) 0(0/0) 2 1(1/1) 0(0/1) 3 1(1/1) 0(0/1) 4 1(2/2) 0(0/1) 5 1(2/2) 0.5(1/2) 6 1(2/2) 0.5(1/2) 7 8 0.66(2/3) 0.5(1/2) 9 0.5(2/4) 0.5(1/2) 10 0.4(2/5) 0.5(1/2) 0(0/0) 0(0/0) 0(0/0) 0(0/1) 0(0/0) 0(0/0) 0(0/2) 0(0/2) 0(0/2) 0(0/2) ・・・最も期待値の高いアーム 39 探索探索探索探索探索探索活用活用活用活用ランダム選択引くアーム結果 1 2 3 1 2 3 - アーム1 アーム2 アーム3 アーム1 アーム2
muddydixon 2013/12/02
presentation

bandit

abtest
リンク
Gittins index - Wikipedia
The Gittins index is a measure of the reward that can be achieved through a given stochastic process with certain properties, namely: the process has an ultimate termination state and evolves with an option, at each intermediate state, of terminating. Upon terminating at a given state, the reward achieved is the sum of the probabilistic expected rewards associated with every state from the actual
muddydixon 2013/07/13
bandit

statistics
リンク
多腕バンディットテスト - アナリティクスヘルプ
Google アナリティクスウェブテストの基盤を成す統計手法について説明します。Google アナリティクスでは、ウェブテストの手法として多腕バンディット方式を採用しています。多腕バンディットテストには、次のような特徴があります。最も利益の大きい選択肢の特定を目標とするランダム分布がテストの進行とともに更新される「多腕バンディット（multi-armed bandit）」という名前は、それぞれに異なる見込み配当率が設定された、「One-armed bandit（片腕の盗賊）」というスロットマシンが複数並んでいる状況を模した仮説テストという意味を持っています。スロットマシンのプレイヤーは、最も見込み配当率が高いスロットマシンを見つけ出す必要がある一方で、利益を最大化する必要もあります。この状況では、これまでの配当率が最も優れているマシンのみをプレイするか、それともさらに配当率
muddydixon 2013/07/12
bandit

algorithms

abtest

performance

tuning

analytics
リンク
https://ibisml.org/archive/ibis2011/ibis2011-nakamura.pdf
muddydixon 2013/03/27
bandit

pdf
リンク
1