タグ

統計に関するteracy_junkのブックマーク (7)

  • 仮説検証とサンプルサイズの基礎 - クックパッド開発者ブログ

    パートナーアライアンス部 森田です。有料会員の獲得施策や、それに関わるサービス内動線の最適化を担当しています。 記事の対象 仮説検証を通じて何かを改善をしたいと思っている人 仮説検証の際に「どれくらいのデータを集めたら良いか」分からない人 はじめに 仮説検証とは「仮説を立て、それを証明するためのデータを集め、真偽を確かめること」です。今回は仮説検証を行う際の手順と、その検証に必要なサンプルサイズの考え方を説明します。サンプルサイズの話のみ関心があるかたは、前半を飛ばし「サンプルサイズの決め方」を読んでください。 目次 記事の対象 はじめに 目次 仮説検証のつくりかた 1. 仮説をたてる 2. 施策/KPIを考える 3. 仮説検証後のアクションを決める 4. 対象を決める 5. サンプルサイズを計算する サンプルサイズの決め方 答えを先に サンプルサイズを決める二つの要素 「二つの平均値」と

    teracy_junk
    teracy_junk 2016/09/27
    『仮説は根拠の程度はあれど基本的には思い込みです。その真偽を確かめるために何のデータを集める必要があるか考えます。ここが一番の難所です』
  • エンジニアのためのデータ可視化実践入門という本を書いた - あんちべ!

    2014/10/14 追記 書87ページに「母数」という単語が複数回出てきますが、 これは全て「分母」とすべきでした。*1 通常、統計学の文脈では、母数は各確率分布を特徴付ける変数を指す単語であり、 例えば正規分布は平均と分散という二つの母数によって形状が決定されます。 決して母数と分母(あるいは全数)と誤解してはなりません。 しかし母数と分母を混同することは当によくあることで、 書はこのような頻出する誤解を訂正し、 皆様が統計を用いる際の失敗を一つでも減らす という目的で執筆に至ったにも拘らず、 まさか書でこのような重大な失敗をしてしまったことに対し 心からお詫び申し上げ訂正させて頂きます。 なお、問題個所の記述は共著者の森藤氏ではなく 私が記述したものであり、全責任は私にあります。 を書くに当たり、誤字脱字や言い回しの不備は出来る限り無くすべきですが、 人間であるためミスをす

    エンジニアのためのデータ可視化実践入門という本を書いた - あんちべ!
  • 2013年東京都議選の簡単なデータ分析: 311後の日本の政治論壇

    東京都議選について簡単な分析を行ったのでここで紹介しておきたい。 自公圧勝の背景  都議選についての個人的な注目点は、現在の安倍自民党の世論調査に見られる数値上の「好調さ」がどの程度選挙結果に反映されるかである。2012年衆院選では、自民党は議席数では大勝を収めたものの、得票数などのデータは大敗を喫した2009年に比較しても悪化していた。有権者のうち比例区で自民党に投票した割合(絶対得票率)は17%以下であった。その後、株価の上昇等に代表される景気の気の部分の向上もあり、安倍内閣と自民党の支持率は高く推移している。  しかし、世論調査結果と選挙結果は単純にリンクするものではない。また内閣支持率は、政党支持が流動化している現在では乱高下しやすい状況にある(『「政治主導」の教訓』所収の拙稿参照)。世論調査だけでなく、実際の選挙結果でも、安倍自民党の支持が着実に浸透しているのかどうか、2012年

    teracy_junk
    teracy_junk 2013/06/26
    よくまとまってるデータなのであとでじっくり読む
  • 【CodeIQ提供】データ解析・可視化なら俺らに任せろ!- 第30回R勉強会まとめ #TokyoR

    2013年4月20日(土)にニフティ株式会社のセミナールームで、第30回R勉強会@東京(#TokyoR)が開催されました。#TokyoRは、里洋平氏(@yokkuns) が主催しているR言語を学ぶプログラミングの勉強会です。今回は100名以上の参加希望があったため、補欠が出てしまったほどの人気イベントです。  そもそも R言語とは、統計処理を得意とする言語であり、データの解析や可視化などを比較的簡単に実行出来るツールです。 今回は、その人気イベントである第30回R勉強会@東京にお邪魔し、全5時間に渡るアツい内容をまとめてお届けします。またこちらの勉強会まとめ記事は、株式会社リクルートキャリアが運営する「CodeIQ(コードアイキュー)」のご協力で提供されております。 (当日のアジェンダ) それでは、各セッション内容のご紹介です。 初心者セッション1 「はじめてのR」 最初は、R歴三年・ビジ

  • 利用しないともったいない!公的機関による統計情報まとめ | マミオン有限会社-パソコン・数学研修、法人研修

    マミオンでは、マーケティングリサーチ・市場調査に欠かせない、 ヒアリングや観察法などの「質的調査」のサービスを主にご提供しています。 質的調査は、「なぜ」「どうやって」という部分を明らかにし、 新しいアイデアや改善のヒントを得るのに適した方法と言えます。 一方で、それだけでは主観的、近視眼的な判断を招いてしまう恐れがあるので、 全体を数字で把握する「量的調査」と併用することが大切です。 量的調査と言えば、省庁、自治体などの公的機関によって 様々な調査が毎月、毎年のように行われており、 これらの多くが無料でネット上に公開されています。 今回はその中から、特にマミオンがウォッチしている シニアマーケティングを考える上で参考になる調査をまとめました。 もちろんシニア以外のマーケティング活動にも使えるデータばかりなので、 ぜひご自身のビジネス領域の情報を探してみてください。 人口・寿命人口推計毎月

  • R言語で何ができる?

    昨今、ビッグデータというキーワード、およびその関連技術は非常に注目を集めており「R言語」というフレーズを耳にする機会も多くなってきたように感じます。 稿は利用例を通じてR言語の概要、イメージを掴んでいただくことに加え、R言語を取り巻く業界の動向についてご紹介することを目的としています。 利用例としては、私がとあるシステム運用において実施していた分析を簡略化した形でご紹介します。システム統計情報に対する分析事例なので、ITシステムの設計や運用に携わる方であれば目にすることの多い、なじみ深いデータ分析と言えるのではないでしょうか。 なお、稿では統計についての数学的な解説は極力行わず、R言語の利用者目線でのご紹介に重点を置きます。 対象読者としては、 などを想定しています。 また、Rは統計的なデータ処理を行うCUIベースのプラットフォームであり、CUI操作、スクリプト言語の経験、統計学に対す

    R言語で何ができる?
  • データサイエンティスト上がりのDX参謀・起業家

    推定を作ってから約2ヶ月経ってからのコロナ陽性者数の推測結果、以下になりました。 第5波までの傾向だったらもう収束しているはずですが、収束しておらず、1日6,000〜7,000人くらいで停滞している感じです。これくらいの陽性者数が底になっている印象。恐らく、これからは今までと違う動きをすると思われるので、また違う推測モデルが必要かも。 2/6に、↓の記事で東京都のコロナ陽性者数に正規関数を当てはめて推移を予測しました。1ヶ月ほど経ったので、その予測の評価をしてみました。 iisssseeiiii.hatenablog.com 評価した結果は次の図のようになりました。 オレンジ線が実際の陽性者数で、青破線が2/6までのデータを使ったモデルで推測した値です。モデルを作ってから少し陽性者数が増加し、推測ではもっと増えると計算されてましたが、そこまで増えませんでした。ただ、その後の減り方は緩やかだ

    データサイエンティスト上がりのDX参謀・起業家
  • 1