[B! ABテスト] abrahamcowのブックマーク

Optimizing sample sizes in A/B testing, Part I: General summary · Chris Said

A special thanks to John McDonnell, who came up with the idea for this post. Thanks also to Marika Inhoff and Nelson Ray for comments on an earlier draft. If you’re a data scientist, you’ve surely encountered the question, “How big should this A/B test be?” The standard answer is to do a power analysis, typically aiming for 80% power at \(\alpha\)=5%. But if you think about it, this advice is pret

abrahamcow 2020/01/17

ABテスト

リンク

A/Bテストの評価をベイズ統計でやってみない？ - tdualのブログ

遊びでA/Bテストの評価をベイズ統計でやってみたら、思いのほか面白かったので記事に残します。用語の定義コンバージョンコンバージョン率 A/Bテストコンバージョンの確率分布なぜベイズ統計を使うのか割合の問題点尤度と最尤法尤度最尤法ベイズ統計ベイズの定理共役事前分布ベータ分布事後分布の導出事後分布のグラフベイジアンA/Bテストの実装コード使用例本番っぽい使い方カイ二乗検定と比較最後に用語の定義コンバージョンコンバージョンとは「Webサイト上で起きた最終的な成果」のことです。具体的に何を意味するかはサイトの種類によっては様々です。例えば、ECサイトでは商品の購入で、SNSでは会員登録などです。コンバージョン率コンバージョン率は「成果に繋がる最初の行動に対して実際に成果に繋がった割合」のことです。 ECサイトではある商品が購入された数をその商

abrahamcow 2019/12/20

ABテスト

リンク

ABテストの12の落とし穴 - 唯物是真 @Scaled_Wurm

Twitterで見かけた以下の記事で紹介されていた論文がおもしろそうだったので読んだ感想と内容のてきとーな紹介(詳しく知りたい人は元論文を呼んでください) マイクロソフトの研究者による、いわゆる A/B テストにおいてメトリックを解釈するときに陥りがちな罠12選。実例がことごとく直感に反していてとても面白かった。 https://t.co/jC9JOsx1uB— Shuhei Takahashi (@nya3jp) 2017年10月11日内容が間違っている部分があったらコメントなどで教えていただけると嬉しいです論文このKDD2017の論文ではABテストの結果を解釈する時に陥りがちな12種類の罠についてMicrosoftの研究者が実例と対策を交えて説明しています Pavel Dmitriev, Somit Gupta, Dong Woo Kim and Garnet Vaz, "A D

abrahamcow 2017/10/16

ABテスト

リンク

2017ABTestingTutorial – ExP Platform

Welcome to A/B Testing at Scale Tutorial Tutorial by: Pavel Dmitriev, Somit Gupta, Ron Kohavi, Alex Deng, Paul Raff, Lukas Vermeer Given at SIGIR 2017 and KDD 2017. Tutorial Outline Introduction to A/B testing (slides, video) What is A/B testing Brief history Why use A/B testing Examples Cultural Challenges Design of Experiments: Statistical Foundations (slides, video) Null-hypothesis testing, con

abrahamcow 2017/09/04

ABテスト

リンク

http://rtokei.tech/stan/bayesian-inference-with-stan-038/

abrahamcow 2017/08/20

ABテスト

リンク

A/Bテストより10~100倍効率的なランキング評価手法　インターリービング（Interleaving）のまとめと実践 - Qiita

はじめに 2つのシステムの性能やデザインを比較したいときには、A/Bテストを行うことがあります。UIの変更など、比較すべきシステムが多くないような場合で、かつ、たくさんのページビューがあるようなサービスを運用している場合にはA/Bテストでも良いかも知れません。しかし、比較すべきシステムが複数ある場合や、あまりページビューがない場合、A/Bテストで有意な結果を得るためには長い時間がかかってしまうことが知られています。そこで注目を集めているのが、近年提案されたインターリービング（Interleaving（日：交互配置））という手法です。検索や推薦システム等のランキングを行うシステムにのみ適用が可能ですが、実験的にA/Bテストよりも10~100倍効率的であるということが知られています。この記事では最近の論文によって報告されているインターリービングの性能について、また、各種インターリービング手法

abrahamcow 2017/06/08

ABテスト

リンク

ABテストのサンプルサイズの計算

ABテストで必要なサンプルサイズを計算します。今のCVR(コンバージョン率）と目指すCVR、有意水準と検出力を入力してボタンを押してみてください。

abrahamcow 2017/05/11

ABテスト

リンク

A/Bテストと統計的検定の注意点(その1) - ほくそ笑む

素晴らしい記事が上がっていたので言及したい。仮説検証とサンプルサイズの基礎 - クックパッド開発者ブログこの記事では、A/Bテストにおいて、意味のある差が出たかどうかを統計的検定を用いて判断する方法を説明しています。 Web上にある多くのA/Bテストの記事と異なるのは、単に検定手法にデータを突っ込んでp値を出すのではなく、意味のある差とは何かを事前に決定するサンプルサイズを事前に決定するという統計的検定のフレームワークに則ったまともな方法で判断を行っているという点です。よく言われる統計的検定は無意味だなどという言論の多くは、このフレームワークを使っていないだけに過ぎず、不確実な事象に対する科学的な検証方法として、統計的検定のフレームワークの強力さはいまだ健在です。さて、統計的検定のフレームワークについては上の記事および記事中で紹介されている参考文献にお任せするとして、ここでは

abrahamcow 2017/05/03

ABテスト

リンク

How Not To Run an A/B Test

By Evan Miller April 18, 2010 Translations: Russian Spanish Uzbek If you run A/B tests on your website and regularly check ongoing experiments for significant results, you might be falling prey to what statisticians call repeated significance testing errors. As a result, even though your dashboard says a result is statistically significant, there’s a good chance that it’s actually insignificant.

abrahamcow 2017/05/02

ABテスト

リンク

カイ2乗検定と母比率の差の検定は違うのか - Qiita

> chisq.test(matrix(c(270, 344, 2608, 2706), nrow=2)) Pearson's Chi-squared test with Yates' continuity correction data: matrix(c(270, 344, 2608, 2706), nrow = 2) X-squared = 5.5376, df = 1, p-value = 0.01861

abrahamcow 2017/05/02

リンク

A/Bテストに用いられる統計的検定手法（ロジック）のまとめ＆比較 | RCO Ad-Tech Lab Blog

リクルートデータ組織のブログをはじめました。※最新情報はRecruit Data Blogをご覧ください。 Recruit Data Blogはこちら汎用人型雑用AIの stakaya です。たまたま数年前に社内のBLOGに書いたABテストのロジックのまとめ＆比較記事を発掘したので、このまま眠らせているのはもったいないぞと、圧倒的もったいない精神を発揮し、シェアさせていただきます。あの頃は私も若かった。社内では”堅物・真面目・一途”で有名なものでして、下記文章がお硬いのはご勘弁ください。はじめに本記事は、施策の評価手法としてしばしば用いられるA/Bテスト（A/B testing)について、できる限り背後にある仮定を明記した上で、まとめたものである。 A/Bテストとは、主にインターネットマーケティングにおける施策の良否を判断するために、2つの施策（通常、A・Bと記載）を比較す

abrahamcow 2017/04/26

リンク

ABテストの検定超入門

非エンジニア、非分析者の方向け。 ABテストの検定の用語とかイメージがわからない人向け。

abrahamcow 2017/03/30

ABテスト

リンク

仮説検証とサンプルサイズの基礎 - クックパッド開発者ブログ

パートナーアライアンス部森田です。有料会員の獲得施策や、それに関わるサービス内動線の最適化を担当しています。記事の対象仮説検証を通じて何かを改善をしたいと思っている人仮説検証の際に「どれくらいのデータを集めたら良いか」分からない人はじめに仮説検証とは「仮説を立て、それを証明するためのデータを集め、真偽を確かめること」です。今回は仮説検証を行う際の手順と、その検証に必要なサンプルサイズの考え方を説明します。サンプルサイズの話のみ関心があるかたは、前半を飛ばし「サンプルサイズの決め方」を読んでください。目次記事の対象はじめに目次仮説検証のつくりかた 1. 仮説をたてる 2. 施策/KPIを考える 3. 仮説検証後のアクションを決める 4. 対象を決める 5. サンプルサイズを計算するサンプルサイズの決め方答えを先にサンプルサイズを決める二つの要素「二つの平均値」と

abrahamcow 2016/09/27

リンク

シリコンバレーのIT企業が利用しているA/Bテスト手法まとめ - ij_spitz's Blog

いま注目すべきシリコンバレーの有名なIT企業は新規のデザインや機能が有効かどうかを検証するためにA/Bテストを行っています。その一方で、日本の企業も含め、A/Bテストを本番環境で導入している企業は非常に少ないです。加えて、日本で言われているA/Bテストと海外で言われているA/Bテストは少々異なるものだと感じています。日本のA/Bテストはフォームの最適化やデザインの修正にとどまっている一方で、海外のA/Bテストはプロダクト開発のサイクルの一部分となっています。プロダクト開発のサイクルの一部としてA/Bテストを取り入れるためには、大量のテストを定常的に回していく仕組みが必要となってきます。そこでデータドリブンであると言われているようなシリコンバレーのIT企業は自社でA/Bテストの基盤を作成しています。今回は社内A/Bテスト勉強会で発表するために、シリコンバレーの有名IT企業がどのよ

abrahamcow 2016/04/18

ABテスト

リンク

5分でわからない統計的検定 - 唯物是真 @Scaled_Wurm

社内でABテストとか統計的仮説検定の話題が出ていたので、統計的検定を知らない人向けに「5分でわかる統計的検定」というLTをしようかと思ったけど、まったく5分で終わる気がしなかったのでとりあえずブログにまとめてみるちなみに社内では統計的検定は数名の人が個人的に趣味で使っている程度個人的には統計的検定をやることをそんな重要視してないけど(PVとかユーザー数多ければだいたい有意差出るし、数値を見て明らかに差があるような変更でないとあまり意味がないような気がする) 自分は統計やABテストなどにあまり詳しいわけではないので注意間違いはコメントやTwitterなどで教えていただけると嬉しいです統計的検定とは雑にいうと、得られた結果が偶然得られたものどうかを確かめる方法(特定の仮定のもとで) ABテストでは別々のものをユーザーに見せた結果が偶然の差ではなく統計的に意味のある差(有意差)が得られ

abrahamcow 2016/03/13

リンク

A/Bテストで陥りやすい落とし穴「ヒルクライミング」とは何か？

By P & K's Mommy インターネットが可能にした評価手法の一つにA/Bテストがあります。内容を変化させた2パターンのページを切り替えて表示することで、ユーザーの反応を定量的に捉えられる有効な手法ですが、結果の精度が高い一方でA/Bテストにこだわり続けてしまうと、数値の上昇にばかりこだわりすぎる「ヒルクライミング」と呼ばれる状況に陥ってしまうという罠が存在しています。ヒルクライミングにとらわれすぎると、短期的な成功にこだわりすぎて木を見て森を見ず的な状況に陥ってしまいがちなのですが、Twitterでデータ研究に携わるChris Saidさんはそのような失敗を避けるために注意すべき4つのポイントを挙げています。 Four pitfalls of hill climbing · The File Drawer http://chris-said.io/2016/02/28/four

abrahamcow 2016/03/08

ABテスト

リンク

施策の効果をみんなで納得して前に進むための「箱ひげ図」 - クックパッド開発者ブログ

こんにちは、検索・編成部ディレクターの岡根谷です。クックパッドを訪れてレシピ検索するユーザーさんの検索成功率を上げるために、日々施策を行っています。自信を持って進めるためには客観的なデータはじめはどんなによさそうと思った施策でも、進めていく中で、自分や一緒にやっているエンジニアが施策の価値に自信をなくして停滞する瞬間が必ずあります。そんな時、A/Bテストの結果などの客観的な定量データは非常に心強いです。客観的な裏付けがあると、判断に対しての迷いがなくなり、前向きに改善に取り組んで価値を生み出していけるようになります。客観的データを自分の言葉で伝えたいしかし、このよく言う「施策の効果を数字で」というのは、いざちゃんとやろうとすると非常に手間のかかるものだったりします。ある機能が検索成功率を上げるのに有効ということを示すために、「機能ありの方がなしの場合より検索成功率高めだから

abrahamcow 2016/01/19

リンク

A/Bテストって何のためにやるの？月間100億PVサイトのエンジニアが教える、いまさら聞けないデータ活用入門

A/Bテストって何のためにやるの？月間100億PVサイトのエンジニアが教える、いまさら聞けないデータ活用入門ヤフーでは、同志社大学文化情報学部の学生を対象に、社員による計15回講義「インターネット環境におけるマルチビッグデータの活用」（2015年4月～7月）を実施いたしました。今回は、7月に行った講義の中から、Yahoo!ニュース責任者・有吉健郎による講義「Yahoo!ニュースがデータを活用する理由」と、Yahoo!ニュースのエンジニア・池田健人による講義「データ分析の裏側」の内容の一部を当ブログ用に再構成してご紹介します。 A/Bテストって、何のためにやるの？当ブログではこれまで、Yahoo!ニュースで行っているA/Bテストの事例（※アプリのバナーテスト、Yahoo!ニューストピックスの見出しテスト、トップページの行間デザインテスト）をいくつかご紹介したことがありましたが、今回は

abrahamcow 2015/08/20

ABテスト

リンク

≡ ←ハンバーガーメニューのデザインでクリック率は違う（2014年のA/Bテストの結果から）

スマートフォン対応サイトで右上や左上にある「≡」こんな形の三本線のメニューはいわゆるハンバーガーメニューと言いますが、ハンバーガーメニューのデザインに関してA/Bテストを行っていた記事があったので紹介します。 ●ハンバーガーメニューのデザインパターンハンバーガーメニューは色々なデザインがあって、例えば以下の様なパターンがあります。（サイトイメージは「グラシン工房」から）まずはBootstrapの標準に近い形式。三本の線があるだけのパターン。次に三本の線のしたにメニューという文字を配置して、アイコンの意味を説明するパターン。三本線を線（border）で囲い、ボタンらしく見せるデザインのパターン。他にもいくつかデザイン・表現方法がありますが、それは前に書いた「【Web制作】スマートフォンサイトのメニューのアイコンデザイン・表示を比べてみた」の記事をご覧ください。 ●アイコンだけ・文字付

abrahamcow 2015/06/10

ABテスト

リンク

A/B テストで施策の効果を検証！エンジニアのための R 入門 - クックパッド開発者ブログ

こんにちは、買物情報事業部でサーバサイドの開発を担当している荒引 (@a_bicky) です。今回のエントリでは R で A/B テストの結果検証を行う方法の一例について紹介します。エンジニアでも自分の関わった施策の効果検証のために簡単な分析をすることがあるかと思いますが、そんな時にこのエントリが役立てば幸いです。なお、次のような方は対象外です。 A/B テストや KPI の設計に興味のある方この辺には全く触れませんプログラミング初心者わからない単語が大量に出てくるでしょう R で統計学や機械学習の手法をバリバリ使いたい方世の中の “分析” の多くは集計処理がメインです Python, Julia など既に分析する上で使い慣れた言語・ツールがある方今回のエントリ程度の内容であればわざわざ乗り換える必要もないでしょう OS は Mac を前提として説明するので、Windows

abrahamcow 2015/05/08

リンク

はてなブックマーク

タグ

関連タグで絞り込む (16)

ABテストに関するabrahamcowのブックマーク (107)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

今週のはてなブックマーク数ランキング（2024年7月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス