タグ

statisticsに関するa_bickyのブックマーク (14)

  • 喫煙率が下がっているのに肺がんが増えているのは、なぜ?

    『喫煙率は減っているのに、肺がんが増えているのは、タバコと肺がんが関係ないからだ。』 このような理屈が、アンチ禁煙の立場の方によって、ネットや書籍によく紹介されています。 (男性の場合を例にします。) 下の図1は喫煙率と、肺がん死亡数のグラフです。 確かに、喫煙率は1966年のピーク83.7%から、2011年の33.7%まで、減る一方です。 そして、肺がん死亡数は1958年の2,919人から、2010年の50,395人と増える一方です。 このグラフを見ると先ほどの論理は合っていそうです。でも間違っているのです。 ここからは、よく読んでいただきたいと思います。 がんというものは高齢になると増えます。したがって人口が高齢化するだけでも、がんは増えます。日は現在急激に高齢化が起きており、それだけでも肺がんは増えていきます。そこで、当に肺がんが増えているのかを比較するには、年齢構成を補正した肺

    喫煙率が下がっているのに肺がんが増えているのは、なぜ?
  • 統計的消去で擬似相関を見抜こう! - ほくそ笑む

    今日は初心者向け記事です。 はじめに ある範囲の年齢の小学生32人を無作為に選び、算数のテストを受けてもらい、さらにその身長を測定しました。 身長に対する算数の点数のグラフは次のようになりました。 なんと、身長の高い子供の方が、算数の点数が高いという結果になりました! 身長が算数の能力に関係しているなんて、すごい発見です! しかしながら、結論から言うと、この結果は間違っています。 なぜなら、抽出したのは「ある範囲の年齢の小学生」であり、年齢の高い子も低い子も含まれているからです。 年齢が高いほど算数能力は高くなり、年齢が高いほど身長も高くなることは容易に推測できます。 この関係を図で表すと次のようになります。 つまり、年齢と算数能力に相関があり、年齢と身長にも相関があるため、身長と算数能力にも見かけ上の相関が見えているのです。 このような相関を擬似相関と言います。 統計解析では、このような

    統計的消去で擬似相関を見抜こう! - ほくそ笑む
  • クリック率やコンバージョン率の信頼区間を求めたい! (1)

    わけあってクリック率・コンバージョン率の信頼区間を算出したくなったのだけど、そのやり方を調べてみたら結構ややこしかったので、調べた結果をメモに残しておきます。 はじめに クリック率 (Click-through rate, CTR) やらコンバージョン率 (Conversion rate, CVR) を扱う仕事をしていると、少なくとも一度ぐらいはそれらの信頼区間を求めて (区間推定して) みたくなるものかと思います。 それというのも、例えば「100 回のインプレッションのうち、1 回のクリックが得られた」という標 (サンプル) があったとして、これから CTR を点推定すると 1% になるものの、これは「サンプルサイズを増やしたときにも同様に 1% になるのか?」と言ったらそんなことは言えないわけで、ならば「どれくらいの信頼水準のときにどれくらいの範囲に真の CTR が存在しうるのか?」

    クリック率やコンバージョン率の信頼区間を求めたい! (1)
  • 「知恵ノート」は終了いたしました - Yahoo!知恵袋

    平素よりYahoo!知恵袋をご利用いただきありがとうございます。 2017年11月30日をもちまして、「知恵ノート」機能の提供を終了いたしました。 これまでご利用いただきました皆様にはご迷惑をおかけすることとなり、誠に申し訳ございません。 長年のご愛顧、心よりお礼申しあげます。 引き続き、Yahoo!知恵袋の「Q&A」機能をご利用ください。 Yahoo!知恵袋トップ 知恵ノートサービス終了のお知らせ プライバシー - 利用規約 - メディアステートメント - ガイドライン - ご意見・ご要望 - ヘルプ・お問い合わせ JASRAC許諾番号:9008249113Y38200 Copyright (C) 2018 Yahoo Japan Corporation. All Rights Reserved.

    「知恵ノート」は終了いたしました - Yahoo!知恵袋
  • ABテストを検定する

    検定とは 利用者にとっての意味だけを割り切って考えるなら、検定とは、「得られた結果が偶然なのか、そうじゃないのか」を判断するためのツールです。 ただ、何でもかんでも検定する必要はなくて、得られた結果に有意差があるかどうか知るだけなら、検定が必要な場合と検定しなくてもなんとかなる場合があります。 この記事では、ABテストを検定する方法と、どうすれば検定が必要かどうかぱっと見で分かるようになるのか、を書いていきます。 標数が少ないABテストは検定で有意差を判断する 標数が少ない時は、有意差があるのかを知るために検定が必要です。下記の具体例で計算方法を示します。 WebのABテストを行った結果、Aは15クリック、Bは10クリックだった。当に差があるのかを検定で確かめたい この結果に有意差があるかを知るには、χ^2検定を使います。χ^2検定は以下の式で簡単に手計算できます。 χ^2 = (

  • jStat : a JavaScript statistical library

    戦後、日経済は世界最強と誰もが信じて疑いませんでした。 今では見る影もなく、バブル崩壊後のGDPは横ばい、失われた30年と言われています。 世界一の高齢化社会となり、出生率は統計以来の過去最低を更新。 付随して、事業後継者不在・過疎化・空き家問題・貧困問題・老老介護など多くの社会課題が表面化しています。 我々は金融×事業の力で、まずは産業界から日を再起させることに尽力致します。同志が立ち上がり、ここに集いました。

    jStat : a JavaScript statistical library
  • The best stats you've ever seen | Hans Rosling

    http://www.ted.com With the drama and urgency of a sportscaster, statistics guru Hans Rosling uses an amazing new presentation tool, Gapminder, to present data that debunks several myths about world development. Rosling is professor of international health at Sweden's Karolinska Institute, and founder of Gapminder, a nonprofit that brings vital global data to life. (Recorded February 2006 in Mont

    The best stats you've ever seen | Hans Rosling
    a_bicky
    a_bicky 2013/05/03
    motion chart を使った TED での講演(英語の字幕もある)。これはすごいなぁ
  • 図(だけ)で説明する回帰分析 筒井淳也 2011.7 1 決定モデルの場合 計量分析では、何のために回帰分析をするのでしょうか? たとえば、「学歴が収入に与える影響」について知りたいとし��

    図(だけ)で説明する回帰分析 筒井淳也 2011.7 1 決定モデルの場合 計量分析では、何のために回帰分析をするのでしょうか? たとえば、「学歴が収入に与える影響」について知りたいとしましょう。このとき、ランダム抽出されたデー タを使って、学歴ごとの収入の平均値を求めて、その差をみるだけではダメです。なぜなら、学歴と収入の両 者に影響する要因(たとえば性別)があって、その効果のために学歴の収入に対する効果が過大(あるいは過 小)に見積もられる可能性があるからです。学歴によって性別が変わるわけではない以上、性別の効果は学歴 と切り離して考えるべきなのは当然でしょう。 ここで、もし収入に影響する要因が性別(男女)と学歴(高卒と大卒のみ、という世界を考える)だけであ るとしよう。このときは、男女の高卒・大卒、計 4 グループからひとりずつ誰でもよいので抽出して、その 4 点から回帰係数を計算

    a_bicky
    a_bicky 2013/04/12
    「撹乱項(未投入の要因)の中にもし説明変数と相関するものがあれば、観察して投入しなければならない」と多重共線性は矛盾してる気がするんだけどよくわかってない
  • M-estimators

    a_bicky
    a_bicky 2013/04/12
    M 推定の解説としては個人的に一番わかりやすい
  • 二群の平均値(代表値)の差を検定するとき

    二群の平均値(代表値)の差を検定するとき First upload: Feb 02, 2007 Last modified: Feb 10, 2007 1. はじめに 二群の平均値(代表値)の差の検定をするときに,両群の分散が違うといろいろ問題が残る。 粕谷によれば,そのようなときには,分散の影響を受けない中央値検定を採用すればよいと書いてあるという情報・書き込みがいくつも現れる。 当にそうだろうか。粕谷1)はそのように書いてあるのだろうか。 いろいろ検討してみたが,粕谷は「分散が等しくないから中央値検定」などと単純には言っていないようだし,その後の同じ学会誌に Markus Neuhäuser2) は別の提言をしている。 分散が等しくない場合の二群の代表値の差の検定に困難が伴うのは古くからの議論である。 しかし,だからといって,データ水準や検出力の面から考えて最低位に位置づけられれ中央

    a_bicky
    a_bicky 2012/01/06
    各種検定の考察
  • マン・ホイットニーのU検定 - Wikipedia

    この記事は検証可能な参考文献や出典が全く示されていないか、不十分です。 出典を追加して記事の信頼性向上にご協力ください。(このテンプレートの使い方) 出典検索?: "マン・ホイットニーのU検定" – ニュース · 書籍 · スカラー · CiNii · J-STAGE · NDL · dlib.jp · ジャパンサーチ · TWL (2015年9月) マン・ホイットニーのU検定(マン・ホイットニーのユーけんてい、英: Mann–Whitney U test)はノンパラメトリックな統計学的検定の一つであり、特に特定の母集団がもう一方よりも大きな値を持つ傾向にある時に、2つの母集団が同じであるとする帰無仮説に基づいて検定する。ウィルコクソンの順位和検定と呼ばれるのも実質的に同じ方法であり、まとめてマン・ホイットニー・ウィルコクソン検定とも呼ばれる。 マン・ホイットニーのU検定は、正規分布の混合

    a_bicky
    a_bicky 2012/01/06
    母集団の分布が正規分布じゃない場合の2標本検定
  • 統計学入門−第1章

    1.3 データの要約方法 (1) 度数分布図 統計学ではデータをどのようにして要約し、集団の様子をどのように記述するのでしょうか? それを説明するために第1節の体重測定の例をもう一度取り上げてみましょう。 データを要約したい時は、まず始めにデータを見やすいようにグラフ化します。 それには横軸にデータの値を取り、縦軸にその数をプロットした度数分布図(frequency distribution)を用います。 一般的な度数分布図ではデータの値をいくつかの区間に区切り、その区間の中に入るデータの数を柱状グラフとしてプロットします。 この図が度数分布図と呼ばれるわけは、データの数のことを数学では度数と呼ぶからです。 体重測定のデータを度数分布図で表したところ、図1.3.1のようになったとします。 このように最初にデータを目に見えるようにグラフ化する(見える化する)のは大変重要です。 これによってデ

    統計学入門−第1章
    a_bicky
    a_bicky 2011/12/28
    標準誤差について
  • 7. 統計誤差

    a_bicky
    a_bicky 2011/12/27
    中心極限定理に言及した統計誤差の説明
  • 統計学

    この単元では,高校「数学C」で扱う分野を,幅広くとらえ,「各種分布」の単元を除き,高校数学程度の知識で十分対応できるように工夫してあります。 このソフトの特徴は,二項分布において,ある時は正規分布で近似したり,ある時はポアソン分布で近似したりします。どうしてこのような時に,正規分布で近似するのか,または,ポアソン分布で近似したりするのか疑問に思う時があります。このような疑問に対し,なるべくグラフを用いて,また,シュミレーションを用いて表現するようにいろいろな工夫を行ないました。

  • 1