タグ

統計に関するtama_1028のブックマーク (13)

  • 仮説検証とサンプルサイズの基礎 - クックパッド開発者ブログ

    パートナーアライアンス部 森田です。有料会員の獲得施策や、それに関わるサービス内動線の最適化を担当しています。 記事の対象 仮説検証を通じて何かを改善をしたいと思っている人 仮説検証の際に「どれくらいのデータを集めたら良いか」分からない人 はじめに 仮説検証とは「仮説を立て、それを証明するためのデータを集め、真偽を確かめること」です。今回は仮説検証を行う際の手順と、その検証に必要なサンプルサイズの考え方を説明します。サンプルサイズの話のみ関心があるかたは、前半を飛ばし「サンプルサイズの決め方」を読んでください。 目次 記事の対象 はじめに 目次 仮説検証のつくりかた 1. 仮説をたてる 2. 施策/KPIを考える 3. 仮説検証後のアクションを決める 4. 対象を決める 5. サンプルサイズを計算する サンプルサイズの決め方 答えを先に サンプルサイズを決める二つの要素 「二つの平均値」と

  • 【初学者向け】Rではじめる統計学 母集団・標本と標準化 - Qiita

    はじめに 初学者向けとして母集団・標と標準化という考え方を勉強した上でプログラミングツール「R」を使って偏差値を算出します。 実は以前、「【初学者向け】Rではじめる統計学 分散と標準偏差」というタイトルで投稿させていただいたのですが、基的な方針は前回と変わりません。 ふだん使わないような記号文字の使用は極力控えて説明します。 Rには興味ないけど計算方法だけ知りたい、という方も大歓迎です。 こんな方向けに書いてみました 標準化ってなんで求める必要があるのか知りたい 偏差値の算出方法を知りたい 仕事で必要になった 母集団・標?標準化ってなんだったっけ?思い出したい 必要なもの Rの開発環境ならびに基礎知識(変数とベクトル、関数の使い方程度で大丈夫です) 分散と標準偏差の算出方法 ネヴァーギブアップ精神 ※分散と標準偏差ってなんだっけ?という方は以前に書いた記事をお読みいただくか、他のWE

    【初学者向け】Rではじめる統計学 母集団・標本と標準化 - Qiita
  • ズバリ! 必要なサンプルサイズはいくつ? A/Bテストのための例数設計入門 - 廿TT

    こういう状況を考える 広告 A と広告 B で CVR(コンバージョンレート)に差があるかテストしたい。しかも仮説検定をやりたい。 A/Bテストに長い時間をかけるのは無駄だからやめたい(リスティング広告でやってはいけない8つの施策 | スポンサードサーチ再入門 | Web担当者Forum) 一方で一定のクリック数がなくては判断できない(Sexyなリスティング広告プレイヤーになるために…、スライドを公開します。 | SEM-LABO) では、結局一定のクリック数っていくつあればいいの? R で計算してみる。 用意するもの: 有意水準(α) 検出力(1-β) 広告 A の経験的 CVR 広告 B の期待される CVR ↑これらについては後で説明する。 CVR は CTR(クリック率)と読み替えてもらってもかまわない。なにかをなにかで割った「割合」なら同じように考えて問題ない。 広告 A という

    ズバリ! 必要なサンプルサイズはいくつ? A/Bテストのための例数設計入門 - 廿TT
  • 対数とは何なのかとその公式・メリットについて。対数をとるとはどういう意味か?|アタリマエ!

    「2」を3回かけ算すると、2×2×2=8になりますよね。 これを「2を3乗したら8になる」と言い、以下のように書きます。 一方、「〇を何乗すれば△になるか」を表す数のことを「対数」と言います。 例えば「2を何乗すれば8になるか」を表す数は以下のように表記され、 これを「2を底とする8の対数」と言います。 「2を底とする8の対数」は3 「3を底とする 81 の対数」は4 「5を底とする 1/25 の対数」は-2 という具合ですね。 今回は、そんな対数とその有用性について書いていきます。 photo credit:Eric Vanderpool 指数・対数・底・真数さきほどの指数と対数の意味を聞いて、「あれ?指数と対数って似てるというか、実質的に同じじゃない?」と少し困惑した人もいるかもしれません。 そう、実は「指数」と「対数」は同じ数のことを指しているんです。 ただ、その視点・使い方が異なる

    対数とは何なのかとその公式・メリットについて。対数をとるとはどういう意味か?|アタリマエ!
  • 効果量(effect size)のはなし - 渋谷駅前で働くデータサイエンティストのブログ

    統計学的検定の話を始めたら自分の勉強の方が止まらなくなってしまったので(笑)、ついでにやってみようと思います。ちなみにこの記事は前回のやたらブクマを集めた記事の続きみたいなものです。 そもそもビジネスの現場ではどういう「レベル」の統計学を使うべきなのか - 六木で働くデータサイエンティストのブログ 例えば有意ではないという結果になった時にそれが「実際に帰無仮説が真」なのか「単にサンプルサイズが小さくて検出力が足りないだけ」なのか判断せよという問題。前者なら果てしなくサンプルサイズを大きくしても有意にはならないし、後者なら今度は効果量(effect size)のことを考えなければいけません。 というように前回の記事では検出力(statistical power)と効果量(effect size)について触れたんですが、タイムリーに先日の第36回TokyoRでその辺の話をしてきたので*1、そ

    効果量(effect size)のはなし - 渋谷駅前で働くデータサイエンティストのブログ
  • A/Bテストに用いられる統計的検定手法(ロジック)のまとめ&比較 | RCO Ad-Tech Lab Blog

    リクルートデータ組織のブログをはじめました。※最新情報はRecruit Data Blogをご覧ください。 Recruit Data Blogはこちら 汎用人型雑用AIの stakaya です。 たまたま数年前に社内のBLOGに書いたABテストのロジックのまとめ&比較記事を発掘したので、 このまま眠らせているのはもったいないぞと、 圧倒的もったいない精神を発揮し、シェアさせていただきます。 あの頃は私も若かった。 社内では”堅物・真面目・一途”で有名なものでして、下記文章がお硬いのはご勘弁ください。 はじめに 記事は、施策の評価手法としてしばしば用いられるA/Bテスト(A/B testing)について、できる限り背後にある仮定を明記した上で、まとめたものである。 A/Bテストとは、主にインターネットマーケティングにおける施策の良否を判断するために、2つの施策(通常、A・Bと記載)を比較す

    A/Bテストに用いられる統計的検定手法(ロジック)のまとめ&比較 | RCO Ad-Tech Lab Blog
  • 文系がゼロから統計を勉強するときに最初の1年で読むべき本 - StatsBeginner: 初学者の統計学習ノート

    最初の1年で読むべきを考える 私の統計学の理解はまだまだ初歩レベルに留まっていますが、昨日飲んでる時に「初心者向けの統計のってどういうのが分かりやすいですか」というようなことを訊かれて、「俺に訊かれてもあまり参考には……」とか思う一方、まだ初歩レベルの位置にいる人間だからこそ言える「このが分かりやすかったよ論」ってのもあるよなと思ったので、現時点での読書感想みたいなものをメモしておきます。一昨年、統計の勉強を始めた頃の自分にむかって書いてる感じです。 理系の人とか、ある程度統計の理解ができている人からみれば、「質的な理解のためにはもっと難しいがいいよ」ってなるかも知れませんが、「いやそんな難しいの勧められても独学のモチベーションが続かねーよ」っていう立場でまとめておきますw ここでは、 統計の勉強はしたことがなく、標準偏差とか言われても意味分からない プログラミングも全くわからな

    文系がゼロから統計を勉強するときに最初の1年で読むべき本 - StatsBeginner: 初学者の統計学習ノート
  • 統計学の時間 | 統計WEB

    統計学の時間 統計学の基礎から応用までを丁寧に解説しています。「Step1. 基礎編」は、大学で学ぶ統計学の基礎レベルである統計検定®2級の範囲をほぼ全てカバーする内容となっています。最後まで読み進めることで、統計検定®2級に合格できる力がつくことを目標にしています。 学習ページは、数式ばかりではなく具体例を多数掲載し、はじめて統計学を学ぶ方にもイメージしやすい内容になっています。学習ページで勉強した後は、練習問題で腕試しができます。練習問題のすぐ下に解説を掲載していますので、理解度をすぐに確認することができます。 一通り勉強して知識が身に着いたら、実際に統計検定®を受験するのがオススメです。 統計WEBでは、統計検定®の受験者を応援しています! ※統計WEBを使って統計検定®に合格された方の『合格者の声』をブログに掲載しています。こちらからご覧ください。 Step0. 初級編 1. デー

    統計学の時間 | 統計WEB
  • 【Day-1】データ分析/機械学習を行うために知っておきたいことを列挙する - プロクラシスト

    データ分析ガチ勉強アドベントカレンダー一日目。 まずは指針をということで、データ分析をはじめるにあたって勉強しておきたいことと、そのリソースをまとめる。言語はPythonを想定。 興味領域が偏っている場合があるのであしからず こんなの面白いよっていうのあれば教えてくださいな ※随時更新します Pythonライブラリ 深いアレたち 機械学習のお勉強 論文 arXiv カンファ e-learning twitter データを集める チートシート類 終わりに Pythonライブラリ こんなの勉強しておけば良さそうリスト。抜け漏れご容赦。 ★★★ : 必須。空で使えるようになりたいトコロ。 ★★  : 周辺ツール、知っていればより便利になるよという感じ ★   : あるアルゴリズムに特化しているようなもの。一歩先 ライブラリ 必須度 用途 numpy ★★★ 数値計算用のライブラリ。いろいろし

    【Day-1】データ分析/機械学習を行うために知っておきたいことを列挙する - プロクラシスト
  • 統計検定 1 級に合格する方法 - Qiita

    はじめに: 統計学の重要性 NTT データ数理システムでリサーチャーをしている大槻 (通称、けんちょん) です。 今回は統計検定 1 級について記します。 統計検定とは日統計学会による公認の資格であり、統計に関する知識や活用力を評価するものです。 日常的に大量のデータが溢れている昨今、データ分析機械学習に対するニーズは最高の高まりを見せています。最近では何も考えずともただデータを入力するだけでデータ分析機械学習手法を実行してくれるツールも多数出回るようになりました。 データ分析機械学習を実際に遂行するにあたって、統計学は強力な基礎になります。確かに最近は便利なツールの発達のおかげで、統計を学ばずともデータ分析を実行できる環境が整いつつありますが、その状態でデータ分析手法や機械学習手法を実際に適用しようとすると、しばしば誤った推論をしてしまったり、複雑な状況に対してどのようなアプロー

    統計検定 1 級に合格する方法 - Qiita
  • 「闇雲にPDCAサイクルを高速に回す」と場合によっては過学習して逆に怖いかもというお話 - 渋谷駅前で働くデータサイエンティストのブログ

    3年前にこんな話を書いたわけですが、皆さんご記憶でしょうか。 この当時は「平均への回帰」という言葉にその不毛さを託したわけですが、前回の記事に着想を得てもう少し今時っぽく論じることが出来るんじゃないかと思ったので、ちょっと書いてみようかと思います。 なお、言うまでもありませんが以下に示す例は完全に単なるシミュレーションであり、特定の事例を意味するものではありません*1。過去にデータ分析業界の内部で見聞された数々の事例の最大公約数的な部分をベンチマークとしてまとめたものとご理解下されば幸いです。またシミュレーション自体も特に数理的な厳密さを期したものではありませんので、そこもご了承あれ*2。 ビジネスの現場でよくある光景 一般に「PDCAサイクルをとにかく速く回す」のがビジネスを成功させる近道だと言われるわけです。そこで、こんなケースを考えてみます。設定としては、何かしらのeCommerce

    「闇雲にPDCAサイクルを高速に回す」と場合によっては過学習して逆に怖いかもというお話 - 渋谷駅前で働くデータサイエンティストのブログ
  • クロス集計は分析の基本!メリットと分析できることを解説

    「市場」の動向だけでなく、市場の中身、顧客や満足度に至るまでを調査。データや数値のみでは計れない潜在的なニーズも察知・予測し、明確な目的と正しい手法で調査することで、正確なデータをビジネスに有効活用できます。

    クロス集計は分析の基本!メリットと分析できることを解説
  • 【統計学】初めての「標準偏差」(統計学に挫折しないために) - Qiita

    統計をこれから学ぼうという方にとって、非常に重要な概念ですが理解が難しいものに「標準偏差」があると思います。「平均」くらいまでは馴染みもあるし、「わかるわかるー」という感じと思いますが、突如現れる「標準偏差」 の壁。結構、この辺りで、「数学無理だー」って打ちのめされた方もいるのではないでしょうか。 先にグラフのイメージを掲載すると、下記の赤い線の長さが「標準偏差」です。なぜこの長さが標準偏差なのか、ということも解き明かしていきます。 (code is here) 記事では数学が得意でない方にもわかるように1から標準偏差とはなにか、を説明してみようという記事です。 数式はわかるけど、イマイチ「標準偏差」の意味わからんという方にも直感的な理解がしてもらえるような説明もしていきますので、ぜひご覧ください。 (※ この記事では標準偏差の分母に $n$を使用しています。$n-1$を使用するケースも

    【統計学】初めての「標準偏差」(統計学に挫折しないために) - Qiita
  • 1