タグ

banditに関するmuddydixonのブックマーク (11)

  • 広告レコメンドにおける多腕バンディット問題の適用とその解法 - Speee DEVELOPER BLOG

    Speeeエンジニアの義田@yoppiblogです。 最近はUZOUのレコメンドエンジンを作っています。 前回、UZOUというアドネットワークのプロダクトで運用している文書間類似度によるレコメンドシステムを紹介しました。 今回は、記事レコメンドではなく、UZOUにおける広告レコメンドにおけるアルゴリズムの紹介と実装及び適用した結果を紹介します。 アルゴリズムには、よく知られている「多腕バンディット問題」を採用しUZOUに適用できる形で解きました。 また、勉強会で発表したスライドも合わせて読んでいただくとイメージしやすい思います。 オレシカナイト#6にて発表した内容になります。 背景と問題 UZOUはアドネットワークなので、広告代理店さん(広告主さん)から広告が入稿されそれをUZOUが導入されているメディアさんに配信します。 記事レコメンド同様、 適当に 広告を選んで配信していたのではユーザ

    広告レコメンドにおける多腕バンディット問題の適用とその解法 - Speee DEVELOPER BLOG
  • Jubatus 0.7.0 Released.

    熊崎です。日めでたくJubatus0.7.0をリリースしましたのでお知らせします。 リリースではBanditアルゴリズムを新たに加えました。 また、一部のアルゴリズムで以前と異なる結果を返すようになりました(idf周りのバグ修正やAnomalyでのunlearnerの挙...

  • 多腕バンディットによる表示コンテンツの最適化 - クックパッド開発者ブログ

    こんにちは。技術部検索グループの原島です。 上の画像は、スマートフォン(ブラウザ版)で見たクックパッドの検索結果ページです。レシピだけでなく、ニュースも表示されていますね。献立や掲示板のスレッドなどが表示されることもあります。 クックパッドでは、検索結果ページに表示するコンテンツをクエリなどに応じて最適化しています。最適化は、膨大なログデータと最新の機械学習を用いることで、実現しています。このエントリでは、クックパッドにおけるコンテンツ最適化の裏側を紹介します。 最適化の背景 スマートフォンの普及に伴って、ユーザが利用するプラットフォームは PC からモバイルにシフトしつつあります。クックパッドにおけるモバイル利用者の割合も、ここ 2 年で 10% 以上増加しました。最近では、60% 以上のユーザがモバイルからアクセスしています。 ユーザの利用形態が変化すれば、検索結果ページもその変化に対

    多腕バンディットによる表示コンテンツの最適化 - クックパッド開発者ブログ
  • 意訳:2009年から2014年の機械学習の理論的進歩について教えてください - Dust Theory

    Quoraに投稿された質問 "What has happened in theoretical machine learning in the last 5 years (2009-2014)?" 「2009年から2014年の機械学習の理論的進歩について教えてください」 への、機械学習研究者Yisong Yueの回答を翻訳しました。そのままだと通じない部分は意訳しているので、原文に忠実ではありません。 「2009年から2014年の機械学習の理論的進歩について教えてください」への回答 私の個人的な視点で話します。 潜在変数モデルに対する最適推定について: 理論的な進歩として私が最初に思いつくのは、潜在変数モデルに対する(ほぼ)最適な推定です。この潜在変数モデルの最適推定は一般的に非凸な問題であり、つまり(よく知られている)凸最適化の手法の通用しない難題です。 最も輝かしいアプローチはスペクト

    意訳:2009年から2014年の機械学習の理論的進歩について教えてください - Dust Theory
  • バンディットアルゴリズムのシミュレータを作ってみました

    お手軽に各種バンディットアルゴリズムの特性・性能を比較することができる Web ベースのバンディットアルゴリズムシミュレータを、Yeoman, Bower, Grunt, D3.js, NVD3.js, AngularJS, Bootstrap なんかを使って作ってみましたよ、というお話です。 デモサイト&ソースコード シミュレータのデモサイトとソースコードはそれぞれ以下になります。 デモサイト : http://playground.k11i.biz/bandit-simulator/ ソースコード : https://github.com/komiya-atsushi/bandit-simulator 動機 とあるお仕事で各種バンディットアルゴリズムの特性を調査・検証したことがあって、そのときは Java で各種アルゴリズム&シミュレータを実装 → TSV ファイルにシミュレーション結

    バンディットアルゴリズムのシミュレータを作ってみました
  • 多腕バンディット問題とUCB解説

    以下は登場する数式を(なるべく)直感的に(厳密性をけっこう犠牲にして)解釈したもの。数式多め。簡単のため台は2個とします(K=2)。 補足1 収入をxとして、期待値がベストな台の収入の確率分布を、ベストでない適当な台iの収入の確率分布をとします。 このとき分布をもつベストな台があたかもベストでない台であるかのような振舞いを示す確率というのは漸近的に で与えられるという理論があります(大偏差原理。Dは相互情報量で、分布から見た分布の「遠さ」を表す)。 さて現状で平均収入がベストだったのが台0だったとして、そのプレイ回数を、(理論的な)期待値をとします。また、もう一方の台1のプレイ回数を、期待値をとします(基的には平均収入が多い台をプレイしていくため)。ここで「台1が実はベスト」ということの「確率」はどれくらいか?ということを考えてみます。 台1に比べて台0は十分試行回数が大きいため、台0は

    多腕バンディット問題とUCB解説
  • School of Computer Science

    Breaking new ground in the theory and practice of computational systems and their applications, the School of Computer Science is a progressive, inclusive department, providing specialist teaching and conducting world-leading research in fundamental and applied computer science. The Research Excellence Framework 2021 ranked us 3rd in the UK for GPA and for 4* research. Our research areas include,

    School of Computer Science
  • バンディットアルゴリズム入門と実践

    39. 実際の使用イメージ 試行数 アーム1期待値 アーム2期待値 アーム3期待値 活用or探索 0(0/0) 0(0/0) 1 1(1/1) 0(0/0) 2 1(1/1) 0(0/1) 3 1(1/1) 0(0/1) 4 1(2/2) 0(0/1) 5 1(2/2) 0.5(1/2) 6 1(2/2) 0.5(1/2) 7 8 0.66(2/3) 0.5(1/2) 9 0.5(2/4) 0.5(1/2) 10 0.4(2/5) 0.5(1/2) 0(0/0) 0(0/0) 0(0/0) 0(0/1) 0(0/0) 0(0/0) 0(0/2) 0(0/2) 0(0/2) 0(0/2) ・・・最も期待値の高いアーム 39 探索 探索 探索 探索 探索 探索 活用 活用 活用 活用 ランダム選択 引くアーム 結果 1 2 3 1 2 3 - アーム1 アーム2 アーム3 アーム1 アーム2

    バンディットアルゴリズム入門と実践
  • Gittins index - Wikipedia

    The Gittins index is a measure of the reward that can be achieved through a given stochastic process with certain properties, namely: the process has an ultimate termination state and evolves with an option, at each intermediate state, of terminating. Upon terminating at a given state, the reward achieved is the sum of the probabilistic expected rewards associated with every state from the actual

  • 多腕バンディット テスト - アナリティクス ヘルプ

    Google アナリティクス ウェブテストの基盤を成す統計手法について説明します。Google アナリティクスでは、ウェブテストの手法として多腕バンディット方式を採用しています。多腕バンディット テストには、次のような特徴があります。 最も利益の大きい選択肢の特定を目標とする ランダム分布がテストの進行とともに更新される 「多腕バンディット(multi-armed bandit)」という名前は、それぞれに異なる見込み配当率が設定された、「One-armed bandit(片腕の盗賊)」というスロット マシンが複数並んでいる状況を模した仮説テストという意味を持っています。スロット マシンのプレイヤーは、最も見込み配当率が高いスロット マシンを見つけ出す必要がある一方で、利益を最大化する必要もあります。この状況では、これまでの配当率が最も優れているマシンのみをプレイするか、それともさらに配当率

  • https://ibisml.org/archive/ibis2011/ibis2011-nakamura.pdf

  • 1