タグ

ABテストに関するabrahamcowのブックマーク (107)

  • Optimizing sample sizes in A/B testing, Part I: General summary · Chris Said

    A special thanks to John McDonnell, who came up with the idea for this post. Thanks also to Marika Inhoff and Nelson Ray for comments on an earlier draft. If you’re a data scientist, you’ve surely encountered the question, “How big should this A/B test be?” The standard answer is to do a power analysis, typically aiming for 80% power at \(\alpha\)=5%. But if you think about it, this advice is pret

    Optimizing sample sizes in A/B testing, Part I: General summary · Chris Said
  • A/Bテストの評価をベイズ統計でやってみない? - tdualのブログ

    遊びでA/Bテストの評価をベイズ統計でやってみたら、思いのほか面白かったので記事に残します。 用語の定義 コンバージョン コンバージョン率 A/Bテスト コンバージョンの確率分布 なぜベイズ統計を使うのか 割合の問題点 尤度と最尤法 尤度 最尤法 ベイズ統計 ベイズの定理 共役事前分布 ベータ分布 事後分布の導出 事後分布のグラフ ベイジアンA/Bテストの実装 コード 使用例 番っぽい使い方 カイ二乗検定と比較 最後に 用語の定義 コンバージョン コンバージョンとは「Webサイト上で起きた最終的な成果」のことです。 具体的に何を意味するかはサイトの種類によっては様々です。 例えば、ECサイトでは商品の購入で、SNSでは会員登録などです。 コンバージョン率 コンバージョン率は「成果に繋がる最初の行動に対して実際に成果に繋がった割合」のことです。 ECサイトではある商品が購入された数をその商

    A/Bテストの評価をベイズ統計でやってみない? - tdualのブログ
  • ABテストの12の落とし穴 - 唯物是真 @Scaled_Wurm

    Twitterで見かけた以下の記事で紹介されていた論文がおもしろそうだったので読んだ感想と内容のてきとーな紹介(詳しく知りたい人は元論文を呼んでください) マイクロソフトの研究者による、いわゆる A/B テストにおいてメトリックを解釈するときに陥りがちな罠12選。実例がことごとく直感に反していてとても面白かった。 https://t.co/jC9JOsx1uB— Shuhei Takahashi (@nya3jp) 2017年10月11日 内容が間違っている部分があったらコメントなどで教えていただけると嬉しいです 論文 このKDD2017の論文ではABテストの結果を解釈する時に陥りがちな12種類の罠についてMicrosoftの研究者が実例と対策を交えて説明しています Pavel Dmitriev, Somit Gupta, Dong Woo Kim and Garnet Vaz, "A D

    ABテストの12の落とし穴 - 唯物是真 @Scaled_Wurm
  • 2017ABTestingTutorial – ExP Platform

    Welcome to A/B Testing at Scale Tutorial Tutorial by: Pavel Dmitriev, Somit Gupta, Ron Kohavi, Alex Deng, Paul Raff, Lukas Vermeer Given at SIGIR 2017 and KDD 2017. Tutorial Outline Introduction to A/B testing (slides, video) What is A/B testing Brief history Why use A/B testing Examples Cultural Challenges Design of Experiments: Statistical Foundations (slides, video) Null-hypothesis testing, con

  • http://rtokei.tech/stan/bayesian-inference-with-stan-038/

    http://rtokei.tech/stan/bayesian-inference-with-stan-038/
  • A/Bテストより10~100倍効率的なランキング評価手法 インターリービング(Interleaving)のまとめと実践 - Qiita

    はじめに 2つのシステムの性能やデザインを比較したいときには、A/Bテストを行うことがあります。UIの変更など、比較すべきシステムが多くないような場合で、かつ、たくさんのページビューがあるようなサービスを運用している場合にはA/Bテストでも良いかも知れません。しかし、比較すべきシステムが複数ある場合や、あまりページビューがない場合、A/Bテストで有意な結果を得るためには長い時間がかかってしまうことが知られています。 そこで注目を集めているのが、近年提案されたインターリービング(Interleaving(日:交互配置))という手法です。検索や推薦システム等のランキングを行うシステムにのみ適用が可能ですが、実験的にA/Bテストよりも10~100倍効率的であるということが知られています。この記事では最近の論文によって報告されているインターリービングの性能について、また、各種インターリービング手法

    A/Bテストより10~100倍効率的なランキング評価手法 インターリービング(Interleaving)のまとめと実践 - Qiita
  • ABテストのサンプルサイズの計算

    ABテストで必要なサンプルサイズを計算します。今のCVR(コンバージョン率)と目指すCVR、有意水準と検出力を入力してボタンを押してみてください。

  • A/Bテストと統計的検定の注意点(その1) - ほくそ笑む

    素晴らしい記事が上がっていたので言及したい。 仮説検証とサンプルサイズの基礎 - クックパッド開発者ブログ この記事では、A/Bテストにおいて、意味のある差が出たかどうかを統計的検定を用いて判断する方法を説明しています。 Web上にある多くのA/Bテストの記事と異なるのは、単に検定手法にデータを突っ込んでp値を出すのではなく、 意味のある差とは何かを事前に決定する サンプルサイズを事前に決定する という統計的検定のフレームワークに則ったまともな方法で判断を行っているという点です。 よく言われる統計的検定は無意味だなどという言論の多くは、このフレームワークを使っていないだけに過ぎず、不確実な事象に対する科学的な検証方法として、統計的検定のフレームワークの強力さはいまだ健在です。 さて、統計的検定のフレームワークについては上の記事および記事中で紹介されている参考文献にお任せするとして、ここでは

    A/Bテストと統計的検定の注意点(その1) - ほくそ笑む
  • How Not To Run an A/B Test

    By Evan Miller April 18, 2010 Translations: Russian  Spanish  Uzbek If you run A/B tests on your website and regularly check ongoing experiments for significant results, you might be falling prey to what statisticians call repeated significance testing errors. As a result, even though your dashboard says a result is statistically significant, there’s a good chance that it’s actually insignificant.

    How Not To Run an A/B Test
  • カイ2乗検定と母比率の差の検定は違うのか - Qiita

    > chisq.test(matrix(c(270, 344, 2608, 2706), nrow=2)) Pearson's Chi-squared test with Yates' continuity correction data: matrix(c(270, 344, 2608, 2706), nrow = 2) X-squared = 5.5376, df = 1, p-value = 0.01861

    カイ2乗検定と母比率の差の検定は違うのか - Qiita
  • A/Bテストに用いられる統計的検定手法(ロジック)のまとめ&比較 | RCO Ad-Tech Lab Blog

    リクルートデータ組織のブログをはじめました。※最新情報はRecruit Data Blogをご覧ください。 Recruit Data Blogはこちら 汎用人型雑用AIの stakaya です。 たまたま数年前に社内のBLOGに書いたABテストのロジックのまとめ&比較記事を発掘したので、 このまま眠らせているのはもったいないぞと、 圧倒的もったいない精神を発揮し、シェアさせていただきます。 あの頃は私も若かった。 社内では”堅物・真面目・一途”で有名なものでして、下記文章がお硬いのはご勘弁ください。 はじめに 記事は、施策の評価手法としてしばしば用いられるA/Bテスト(A/B testing)について、できる限り背後にある仮定を明記した上で、まとめたものである。 A/Bテストとは、主にインターネットマーケティングにおける施策の良否を判断するために、2つの施策(通常、A・Bと記載)を比較す

    A/Bテストに用いられる統計的検定手法(ロジック)のまとめ&比較 | RCO Ad-Tech Lab Blog
  • ABテストの検定超入門

    エンジニア、非分析者の方向け。 ABテストの検定の用語とかイメージがわからない人向け。

    ABテストの検定超入門
  • 仮説検証とサンプルサイズの基礎 - クックパッド開発者ブログ

    パートナーアライアンス部 森田です。有料会員の獲得施策や、それに関わるサービス内動線の最適化を担当しています。 記事の対象 仮説検証を通じて何かを改善をしたいと思っている人 仮説検証の際に「どれくらいのデータを集めたら良いか」分からない人 はじめに 仮説検証とは「仮説を立て、それを証明するためのデータを集め、真偽を確かめること」です。今回は仮説検証を行う際の手順と、その検証に必要なサンプルサイズの考え方を説明します。サンプルサイズの話のみ関心があるかたは、前半を飛ばし「サンプルサイズの決め方」を読んでください。 目次 記事の対象 はじめに 目次 仮説検証のつくりかた 1. 仮説をたてる 2. 施策/KPIを考える 3. 仮説検証後のアクションを決める 4. 対象を決める 5. サンプルサイズを計算する サンプルサイズの決め方 答えを先に サンプルサイズを決める二つの要素 「二つの平均値」と

  • シリコンバレーのIT企業が利用しているA/Bテスト手法まとめ - ij_spitz's Blog

    いま注目すべきシリコンバレーの有名なIT企業は新規のデザインや機能が有効かどうかを検証するためにA/Bテストを行っています。 その一方で、日の企業も含め、A/Bテストを番環境で導入している企業は非常に少ないです。 加えて、日で言われているA/Bテストと海外で言われているA/Bテストは少々異なるものだと感じています。 日のA/Bテストはフォームの最適化やデザインの修正にとどまっている一方で、海外のA/Bテストはプロダクト開発のサイクルの一部分となっています。 プロダクト開発のサイクルの一部としてA/Bテストを取り入れるためには、大量のテストを定常的に回していく仕組みが必要となってきます。 そこでデータドリブンであると言われているようなシリコンバレーのIT企業は自社でA/Bテストの基盤を作成しています。 今回は社内A/Bテスト勉強会で発表するために、シリコンバレーの有名IT企業がどのよ

    シリコンバレーのIT企業が利用しているA/Bテスト手法まとめ - ij_spitz's Blog
  • 5分でわからない統計的検定 - 唯物是真 @Scaled_Wurm

    社内でABテストとか統計的仮説検定の話題が出ていたので、統計的検定を知らない人向けに「5分でわかる統計的検定」というLTをしようかと思ったけど、まったく5分で終わる気がしなかったのでとりあえずブログにまとめてみる ちなみに社内では統計的検定は数名の人が個人的に趣味で使っている程度 個人的には統計的検定をやることをそんな重要視してないけど(PVとかユーザー数多ければだいたい有意差出るし、数値を見て明らかに差があるような変更でないとあまり意味がないような気がする) 自分は統計やABテストなどにあまり詳しいわけではないので注意 間違いはコメントやTwitterなどで教えていただけると嬉しいです 統計的検定とは 雑にいうと、得られた結果が偶然得られたものどうかを確かめる方法(特定の仮定のもとで) ABテストでは別々のものをユーザーに見せた結果が偶然の差ではなく統計的に意味のある差(有意差)が得られ

    5分でわからない統計的検定 - 唯物是真 @Scaled_Wurm
  • A/Bテストで陥りやすい落とし穴「ヒルクライミング」とは何か?

    By P & K's Mommy インターネットが可能にした評価手法の一つにA/Bテストがあります。内容を変化させた2パターンのページを切り替えて表示することで、ユーザーの反応を定量的に捉えられる有効な手法ですが、結果の精度が高い一方でA/Bテストにこだわり続けてしまうと、数値の上昇にばかりこだわりすぎる「ヒルクライミング」と呼ばれる状況に陥ってしまうという罠が存在しています。 ヒルクライミングにとらわれすぎると、短期的な成功にこだわりすぎて木を見て森を見ず的な状況に陥ってしまいがちなのですが、Twitterでデータ研究に携わるChris Saidさんはそのような失敗を避けるために注意すべき4つのポイントを挙げています。 Four pitfalls of hill climbing · The File Drawer http://chris-said.io/2016/02/28/four

    A/Bテストで陥りやすい落とし穴「ヒルクライミング」とは何か?
  • 施策の効果をみんなで納得して前に進むための「箱ひげ図」 - クックパッド開発者ブログ

    こんにちは、検索・編成部ディレクターの岡根谷です。 クックパッドを訪れてレシピ検索するユーザーさんの検索成功率を上げるために、日々施策を行っています。 自信を持って進めるためには客観的なデータ はじめはどんなによさそうと思った施策でも、進めていく中で、自分や一緒にやっているエンジニアが施策の価値に自信をなくして停滞する瞬間が必ずあります。 そんな時、A/Bテストの結果などの客観的な定量データは非常に心強いです。客観的な裏付けがあると、判断に対しての迷いがなくなり、前向きに改善に取り組んで価値を生み出していけるようになります。 客観的データを自分の言葉で伝えたい しかし、このよく言う「施策の効果を数字で」というのは、いざちゃんとやろうとすると非常に手間のかかるものだったりします。 ある機能が検索成功率を上げるのに有効ということを示すために、 「機能ありの方がなしの場合より検索成功率高めだから

    施策の効果をみんなで納得して前に進むための「箱ひげ図」 - クックパッド開発者ブログ
  • A/Bテストって何のためにやるの? 月間100億PVサイトのエンジニアが教える、いまさら聞けないデータ活用入門

    A/Bテストって何のためにやるの? 月間100億PVサイトのエンジニアが教える、いまさら聞けないデータ活用入門 ヤフーでは、同志社大学文化情報学部の学生を対象に、社員による計15回講義「インターネット環境におけるマルチビッグデータの活用」(2015年4月~7月)を実施いたしました。今回は、7月に行った講義の中から、Yahoo!ニュース責任者・有吉健郎による講義「Yahoo!ニュースがデータを活用する理由」と、Yahoo!ニュースのエンジニア・池田健人による講義「データ分析の裏側」の内容の一部を当ブログ用に再構成してご紹介します。 A/Bテストって、何のためにやるの? 当ブログではこれまで、Yahoo!ニュースで行っているA/Bテストの事例(※アプリのバナーテスト、Yahoo!ニュース トピックスの見出しテスト、トップページの行間デザインテスト)をいくつかご紹介したことがありましたが、今回は

    A/Bテストって何のためにやるの? 月間100億PVサイトのエンジニアが教える、いまさら聞けないデータ活用入門
  • ≡ ←ハンバーガーメニューのデザインでクリック率は違う(2014年のA/Bテストの結果から)

    スマートフォン対応サイトで右上や左上にある「≡」こんな形の三線のメニューはいわゆるハンバーガーメニューと言いますが、ハンバーガーメニューのデザインに関してA/Bテストを行っていた記事があったので紹介します。 ●ハンバーガーメニューのデザインパターンハンバーガーメニューは色々なデザインがあって、例えば以下の様なパターンがあります。(サイトイメージは「グラシン工房」から) まずはBootstrapの標準に近い形式。三の線があるだけのパターン。 次に三の線のしたにメニューという文字を配置して、アイコンの意味を説明するパターン。 三線を線(border)で囲い、ボタンらしく見せるデザインのパターン。 他にもいくつかデザイン・表現方法がありますが、それは前に書いた「【Web制作】スマートフォンサイトのメニューのアイコンデザイン・表示を比べてみた」の記事をご覧ください。 ●アイコンだけ・文字付

    ≡ ←ハンバーガーメニューのデザインでクリック率は違う(2014年のA/Bテストの結果から)
  • A/B テストで施策の効果を検証!エンジニアのための R 入門 - クックパッド開発者ブログ

    こんにちは、買物情報事業部でサーバサイドの開発を担当している荒引 (@a_bicky) です。 今回のエントリでは R で A/B テストの結果検証を行う方法の一例について紹介します。 エンジニアでも自分の関わった施策の効果検証のために簡単な分析をすることがあるかと思いますが、そんな時にこのエントリが役立てば幸いです。 なお、次のような方は対象外です。 A/B テストや KPI の設計に興味のある方 この辺には全く触れません プログラミング初心者 わからない単語が大量に出てくるでしょう R で統計学や機械学習の手法をバリバリ使いたい方 世の中の “分析” の多くは集計処理がメインです Python, Julia など既に分析する上で使い慣れた言語・ツールがある方 今回のエントリ程度の内容であればわざわざ乗り換える必要もないでしょう OS は Mac を前提として説明するので、Windows

    A/B テストで施策の効果を検証!エンジニアのための R 入門 - クックパッド開発者ブログ