タグ

2016年10月5日のブックマーク (4件)

  • 統計的因果推論(3): 傾向スコア算出を機械学習に置き換えてみると - 渋谷駅前で働くデータサイエンティストのブログ

    この記事は以下の記事の続きです。 前回の記事では普通にロジスティック回帰で傾向スコアを求めたのですが、傾向スコアというのは元はと言えば「共変量に基づいてそれぞれの群に割り付けられる確率値を求めたもの」なので、やろうと思えば機械学習分類器で代替しても良いわけです。実際、岩波DS3にもそのように書かれています。 岩波データサイエンス Vol.3 岩波書店Amazon ということで、前回記事のCM接触データセットに対して任意の機械学習分類器を用いて傾向スコアを算出した歳の、各種効果指標の違いを見ていこうかと思います。なおデータセットは前回から引き続きdというデータフレームに入っているとします。またAUCを求めるに当たっては{ROCR}パッケージを用いています。下準備として以下のようにインデックスを用意しておきます。 > ivec1 <- d$cm_dummy # Treated group >

    統計的因果推論(3): 傾向スコア算出を機械学習に置き換えてみると - 渋谷駅前で働くデータサイエンティストのブログ
  • 仮説検証とサンプルサイズの基礎 - クックパッド開発者ブログ

    パートナーアライアンス部 森田です。有料会員の獲得施策や、それに関わるサービス内動線の最適化を担当しています。 記事の対象 仮説検証を通じて何かを改善をしたいと思っている人 仮説検証の際に「どれくらいのデータを集めたら良いか」分からない人 はじめに 仮説検証とは「仮説を立て、それを証明するためのデータを集め、真偽を確かめること」です。今回は仮説検証を行う際の手順と、その検証に必要なサンプルサイズの考え方を説明します。サンプルサイズの話のみ関心があるかたは、前半を飛ばし「サンプルサイズの決め方」を読んでください。 目次 記事の対象 はじめに 目次 仮説検証のつくりかた 1. 仮説をたてる 2. 施策/KPIを考える 3. 仮説検証後のアクションを決める 4. 対象を決める 5. サンプルサイズを計算する サンプルサイズの決め方 答えを先に サンプルサイズを決める二つの要素 「二つの平均値」と

  • 重回帰のときに必要なデータの数はパラメータの数の10倍です - 驚異のアニヲタ社会復帰の予備

    読んだ。 J Clin Epidemiol. 1995 Dec;48(12):1503-10. パラメータ数が のデータを標数 個観測して重回帰なりなんらかの回帰分析を行うのだが、「標数はいくつあったらいいんですか?」と聞かれることが多々ある。そういうとき、パラメータの10倍(10)あったらいいんじゃないっすかね〜(適当 と答えることが多いのだが、パラメータ数に対する標数の割合(EPV, event per variables)が10 ならいいんじゃないっすかね(適当 と言っている論文。 論文中では673人の患者に対して7つのパラメータが測定されていて、252件の死亡についてCox 回帰を行うが、データセットをすべて使えば252/7 = 36 EPV のところを、2, 5, 10, 15, 20 とEPV の割合を変えてデータセットをリサンプリングしてCox 回帰を繰り返し、パラメー

    重回帰のときに必要なデータの数はパラメータの数の10倍です - 驚異のアニヲタ社会復帰の予備
  • A/Bテストと統計的検定の注意点(その1) - ほくそ笑む

    素晴らしい記事が上がっていたので言及したい。 仮説検証とサンプルサイズの基礎 - クックパッド開発者ブログ この記事では、A/Bテストにおいて、意味のある差が出たかどうかを統計的検定を用いて判断する方法を説明しています。 Web上にある多くのA/Bテストの記事と異なるのは、単に検定手法にデータを突っ込んでp値を出すのではなく、 意味のある差とは何かを事前に決定する サンプルサイズを事前に決定する という統計的検定のフレームワークに則ったまともな方法で判断を行っているという点です。 よく言われる統計的検定は無意味だなどという言論の多くは、このフレームワークを使っていないだけに過ぎず、不確実な事象に対する科学的な検証方法として、統計的検定のフレームワークの強力さはいまだ健在です。 さて、統計的検定のフレームワークについては上の記事および記事中で紹介されている参考文献にお任せするとして、ここでは

    A/Bテストと統計的検定の注意点(その1) - ほくそ笑む