[B! bandit] yukimori_726のブックマーク

Efficient Thompson Sampling for Online Matrix-Factorization Recommendation

yukimori_726 2016/09/29

リンク

Graph Clustering Bandits for Recommendation

yukimori_726 2016/09/29

リンク

【強化学習】バンディットタスク - Qiita

はじめに pythonで $n$ 本腕バンディットタスクを実装しました．教科書として『強化学習』を使いました．本記事の構成はじめに強化学習概要構成要素バンディットタスクルール標本平均手法行動選択規則実装結果おわりに強化学習概要強化学習は，報酬を最大にするためにどの行動を選択すべきかを学習します．教師あり学習では，選択すべき正解の行動を与えられますが，強化学習では，「ある指針」に基づいて行動を選択し，それにより得られる報酬を使って，行動を評価・更新します．学習された「ある指針」に従って行動することで，報酬を最大化できます．構成要素強化学習の構成要素とその簡単な説明をします．エージェント：周囲の環境を感知し，環境と直接相互作用する個体環境：エージェントと独立した周囲の状況報酬：エージェントが行動することで環境から得られる値価値関数：エージェントの

yukimori_726 2016/05/23

bandit

リンク

KDD2015論文読み会

yukimori_726 2016/05/12

リンク

シリコンバレーのIT企業が利用しているA/Bテスト手法まとめ - ij_spitz's Blog

いま注目すべきシリコンバレーの有名なIT企業は新規のデザインや機能が有効かどうかを検証するためにA/Bテストを行っています。その一方で、日本の企業も含め、A/Bテストを本番環境で導入している企業は非常に少ないです。加えて、日本で言われているA/Bテストと海外で言われているA/Bテストは少々異なるものだと感じています。日本のA/Bテストはフォームの最適化やデザインの修正にとどまっている一方で、海外のA/Bテストはプロダクト開発のサイクルの一部分となっています。プロダクト開発のサイクルの一部としてA/Bテストを取り入れるためには、大量のテストを定常的に回していく仕組みが必要となってきます。そこでデータドリブンであると言われているようなシリコンバレーのIT企業は自社でA/Bテストの基盤を作成しています。今回は社内A/Bテスト勉強会で発表するために、シリコンバレーの有名IT企業がどのよ

yukimori_726 2016/04/22

リンク

Contexual bandit @TokyoWebMining

ゼロから始める深層強化学習（NLP2018講演資料）/ Introduction of Deep Reinforcement Learning

yukimori_726 2016/03/29

リンク

https://ibisml.org/archive/ibis2011/ibis2011-nakamura.pdf

yukimori_726 2016/03/29

リンク

Contextual Bandit による表示コンテンツの最適化

I Don’t Have Time: Getting Over the Fear to Launch Your Podcast

yukimori_726 2016/03/29

リンク

バンデットアルゴリズムの一種　A Contextual-Bandit Approach to Personalized News Article Recommendation 解説に挑戦 - Qiita

Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? #導入メリットと事例について ##ニュースレコメンデーションの問題従来のニュースレコメンデーションのメインの手法である協調フィルタリングとコンテンツフィルタリングだと、以下の問題があります。１：ユーザーの情報が必要２：コンテンツの変更の反映が速いので追いつかない３：学習と計算を早くしないといけない４：新しいコンテンツはユーザー情報がないので協調フィルタリングが使用できないユーザーの情報がない状態でコンテンツの変更が速くても対応したいバンデットアルゴリズムを用いましょう！！ ##対処方法バンデットアルゴリズムとはニュース

yukimori_726 2016/03/29

bandit

リンク

GitHub - johnmyleswhite/BanditsBook: Code for my book on Multi-Armed Bandit Algorithms

You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

yukimori_726 2016/03/18

リンク

A/Bテストよりすごい？バンディットアルゴリズムとは一体何者か - Qiita

Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? オバマ大統領の再選に大きく寄与したことで大きな注目を集めているA/Bテスト。A/Bテストを導入した、することを検討している、という開発現場も多いのではないだろうか。そんな中、Web上で次のような議論を見つけた。 20 lines of code that will beat A/B testing every time Why multi-armed bandit algorithm is not “better” than A/B testing 一言でまとめると「A/Bテストよりバンディットアルゴリズムの方がすごいよ」「いやいやA

yukimori_726 2015/11/05

bandit

リンク

第1回　0.1秒で行われるリアルタイムトレード～マイクロアドが開発/運営する広告配信システムの裏側 | gihyo.jp

Web広告配信のインフラを探る第1回0.1秒で行われるリアルタイムトレード～マイクロアドが開発/運営する広告配信システムの裏側普段何気なく見ているWeb広告ですが、その裏側では極めて高度な処理が行われているのをご存じでしょうか。ここでは、最新の広告枠の販売形態である「RTB」を支えるインフラについて解説します。広告主と媒体社の双方のニーズに応えるRTB 近年、市場が急成長しているWeb広告は、広告表示回数やクリック数など効果測定が定量的に行えるという、これまでの広告とは大きく異なる特徴を持ちます。広告の出稿目的はさまざまで、たとえばブランドの認知度を上げることであったり、Webサイトに来て商品を購入してもらうことであったりと多岐にわたります。それらのニーズに応えるため、Web広告技術はこれまで日進月歩で進化してきました。当初は、広告を出す企業がWebサイト上の広告枠を事前（数週間か

yukimori_726 2015/10/30

bandit

リンク

Web広告配信における多腕バンディット問題、Mortal Multi-Armed Bandits Problemとアルゴリズム - CARTA TECH BLOG

こんにちは@hagino3000です。Zucks Ad Networkという広告配信サービスの開発をしています。最近はアドネットワークの広告配信最適化に利用できるアルゴリズムの調査もしています。本稿では調査で読んだ論文の一つ、オンライン広告配信を想定した多腕バンディット問題である、Mortal Multi-Armed Banditsを紹介します。多腕バンディット問題になじみがある読者を想定しています。 papers.nips.cc オンライン広告と多腕バンディット問題ここでは簡単のために、クリック課金型のディスプレイ広告を前提に説明します。オンライン広告配信システムにおける問題として「最初はどの広告がどれだけクリックされるかわからないが、なるべくクリックされる広告を多く配信したい。」という物があります。これは多腕バンディット問題として知られており、探索はCTRが推定できるまで配信する事

yukimori_726 2015/10/29

bandit

リンク

Golangでバンディットアルゴリズムを実装した。 - タチコマ好きなエンジニアのブログ

以下の書籍を参考にGolangでバンディットアルゴリズムを実装してみた。書籍に載っているEpsilon-Greedy、Softmax、UCB1を実装してから、Epsilon-GreedyとSoftmaxはAnnealingを追加してみた。書籍ではPythonでtsvファイルを生成してからRで可視化しているけれど、今回はGolangでグラフを描画した。書籍と同じようなグラフができたので、たぶん同じように実装できているはず。 Annealingを追加したグラフは書籍には載っていないけれど、EpsilonとかTemperatureにあまり影響されない結果になった。 Bandit Algorithms for Website Optimization 作者: John Myles White出版社/メーカー: O'Reilly Media発売日: 2012/12/10メディア: Kindle

yukimori_726 2015/10/29

bandit

リンク

多腕バンディットによる表示コンテンツの最適化 - クックパッド開発者ブログ

こんにちは。技術部検索グループの原島です。上の画像は、スマートフォン（ブラウザ版）で見たクックパッドの検索結果ページです。レシピだけでなく、ニュースも表示されていますね。献立や掲示板のスレッドなどが表示されることもあります。クックパッドでは、検索結果ページに表示するコンテンツをクエリなどに応じて最適化しています。最適化は、膨大なログデータと最新の機械学習を用いることで、実現しています。このエントリでは、クックパッドにおけるコンテンツ最適化の裏側を紹介します。最適化の背景スマートフォンの普及に伴って、ユーザが利用するプラットフォームは PC からモバイルにシフトしつつあります。クックパッドにおけるモバイル利用者の割合も、ここ 2 年で 10% 以上増加しました。最近では、60% 以上のユーザがモバイルからアクセスしています。ユーザの利用形態が変化すれば、検索結果ページもその変化に対

yukimori_726 2015/10/28

bandit

リンク

bandit: ucb1's select_arm is slowly than other algorithm · Issue #186 · jubatus/jubatus_core

You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

yukimori_726 2015/10/22

リンク

Jubatusに実装されたバンディットアルゴリズムを使用して高速A/Bテスト実施 - Qiita

概要どこもかしこもA/Bテストを行っていると言ってますが、それってAテストBテストじゃないですか？ Aパターンを測定した後にBパターンを測定するのはA/Bテストとは言い難いと思います。同時期に行っていないというのが大きな要因です。 AパターンBパターンを同時期に測定しているところは稀だったりします。バンディットアルゴリズムを使えばA/Bテストはおろか、A/B/Cだろうが、A/Bで開始して途中からC/Dパターンを追加だろうが簡単に行うことができます。 1.テンプレートの登録まず始めにAパターン、Bパターンのテンプレートを用意します。このテンプレートというものはMVCフレームワークのV部分だと思ってください。このテンプレート名をJubatusのバンディットアルゴリズムに登録しておきます。 python set_template.py [テンプレートファイル名(index_a.php

yukimori_726 2015/10/22

リンク

https://db-event.jpn.org/deim2012/proceedings/final-pdf/e6-6.pdf

yukimori_726 2015/09/04

リンク

多腕バンディットとUCB1で遊ぶ - Negative/Positive Thinking

はじめにちょっと遊びで多腕バンディット問題で遊んでみた。 UCB1-tunedも書いてみたけどUCB1より最終的な儲けが低くてあれ？ってなった。どっか間違ってるか。。。追記(2012/2/12)：コメントをいただいて、修正しました。一応、報酬額がUCB1よりtunedの方が高くなっているので、一緒にのせてみます。修正コメント指摘をうけ、元論文( http://www.eecs.berkeley.edu/~pabbeel/cs287-fa09/readings/Auer+al-UCB.pdf )を確認してみました。「K個の独立で、未知だがそれぞれ期待値がμiの一様分布に従う確率変数Xi」と定義されているみたいで、報酬期待値μ*もμiの最大と定義されているので、評価値の計算もこれを用いなければなりませんでした。「報酬を表すi.i.d.な確率変数X_{i,t}の範囲は、UCB1の証明

yukimori_726 2015/09/03

リンク

Jubatus0.7.0で実装された多腕バンディットを使う - Qiita

# !/usr/bin/env python # coding: utf-8 host = '127.0.0.1' port = 9199 name = 'test' import sys import json import random import jubatus from jubatus.common import Datum def train(client): arms = [ u'ヤフー', u'グーグル', u'楽天', ] player = u'bandit' for arm in arms: client.register_arm(arm) reword = 0.0 if random.randint(1, 100) <= 70 else 1.0 client.register_reward(player, arm, reword) sys.stdout.write(a

yukimori_726 2015/09/02

リンク

はてなブックマーク

タグ

関連タグで絞り込む (13)

banditに関するyukimori_726のブックマーク (26)

お知らせ

今週のはてなブックマーク数ランキング（2025年8月第2週）

今週のはてなブックマーク数ランキング（2025年8月第1週）

月間はてなブックマーク数ランキング（2025年7月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス