[B! statistics] a_bickyのブックマーク

喫煙率が下がっているのに肺がんが増えているのは、なぜ？

『喫煙率は減っているのに、肺がんが増えているのは、タバコと肺がんが関係ないからだ。』このような理屈が、アンチ禁煙の立場の方によって、ネットや書籍によく紹介されています。　（男性の場合を例にします。）下の図1は喫煙率と、肺がん死亡数のグラフです。確かに、喫煙率は1966年のピーク83.7%から、2011年の33.7%まで、減る一方です。そして、肺がん死亡数は1958年の2,919人から、2010年の50,395人と増える一方です。このグラフを見ると先ほどの論理は合っていそうです。でも間違っているのです。ここからは、よく読んでいただきたいと思います。がんというものは高齢になると増えます。したがって人口が高齢化するだけでも、がんは増えます。日本は現在急激に高齢化が起きており、それだけでも肺がんは増えていきます。そこで、本当に肺がんが増えているのかを比較するには、年齢構成を補正した肺

a_bicky 2017/05/07

statistics

リンク

統計的消去で擬似相関を見抜こう！ - ほくそ笑む

今日は初心者向け記事です。はじめにある範囲の年齢の小学生32人を無作為に選び、算数のテストを受けてもらい、さらにその身長を測定しました。身長に対する算数の点数のグラフは次のようになりました。なんと、身長の高い子供の方が、算数の点数が高いという結果になりました！身長が算数の能力に関係しているなんて、すごい発見です！しかしながら、結論から言うと、この結果は間違っています。なぜなら、抽出したのは「ある範囲の年齢の小学生」であり、年齢の高い子も低い子も含まれているからです。年齢が高いほど算数能力は高くなり、年齢が高いほど身長も高くなることは容易に推測できます。この関係を図で表すと次のようになります。つまり、年齢と算数能力に相関があり、年齢と身長にも相関があるため、身長と算数能力にも見かけ上の相関が見えているのです。このような相関を擬似相関と言います。統計解析では、このような

a_bicky 2017/05/06

statistics

リンク

クリック率やコンバージョン率の信頼区間を求めたい！ (1)

わけあってクリック率・コンバージョン率の信頼区間を算出したくなったのだけど、そのやり方を調べてみたら結構ややこしかったので、調べた結果をメモに残しておきます。はじめにクリック率 (Click-through rate, CTR) やらコンバージョン率 (Conversion rate, CVR) を扱う仕事をしていると、少なくとも一度ぐらいはそれらの信頼区間を求めて (区間推定して) みたくなるものかと思います。それというのも、例えば「100 回のインプレッションのうち、1 回のクリックが得られた」という標本 (サンプル) があったとして、これから CTR を点推定すると 1% になるものの、これは「サンプルサイズを増やしたときにも同様に 1% になるのか？」と言ったらそんなことは言えないわけで、ならば「どれくらいの信頼水準のときにどれくらいの範囲に真の CTR が存在しうるのか？」

a_bicky 2016/05/30

statistics

リンク

「知恵ノート」は終了いたしました - Yahoo!知恵袋

平素よりYahoo!知恵袋をご利用いただきありがとうございます。 2017年11月30日をもちまして、「知恵ノート」機能の提供を終了いたしました。これまでご利用いただきました皆様にはご迷惑をおかけすることとなり、誠に申し訳ございません。長年のご愛顧、心よりお礼申しあげます。引き続き、Yahoo!知恵袋の「Q&A」機能をご利用ください。 Yahoo!知恵袋トップ知恵ノートサービス終了のお知らせプライバシー - 利用規約 - メディアステートメント - ガイドライン - ご意見・ご要望 - ヘルプ・お問い合わせ JASRAC許諾番号：9008249113Y38200 Copyright (C) 2018 Yahoo Japan Corporation. All Rights Reserved.

a_bicky 2015/01/26

statistics
r

リンク

ABテストを検定する

検定とは利用者にとっての意味だけを割り切って考えるなら、検定とは、「得られた結果が偶然なのか、そうじゃないのか」を判断するためのツールです。ただ、何でもかんでも検定する必要はなくて、得られた結果に有意差があるかどうか知るだけなら、検定が必要な場合と検定しなくてもなんとかなる場合があります。この記事では、ABテストを検定する方法と、どうすれば検定が必要かどうかぱっと見で分かるようになるのか、を書いていきます。標本数が少ないABテストは検定で有意差を判断する標本数が少ない時は、有意差があるのかを知るために検定が必要です。下記の具体例で計算方法を示します。 WebのABテストを行った結果、Aは15クリック、Bは10クリックだった。本当に差があるのかを検定で確かめたいこの結果に有意差があるかを知るには、χ^2検定を使います。χ^2検定は以下の式で簡単に手計算できます。 χ^2 = (

a_bicky 2014/09/08

statistics

リンク

jStat : a JavaScript statistical library

戦後、日本経済は世界最強と誰もが信じて疑いませんでした。今では見る影もなく、バブル崩壊後のGDPは横ばい、失われた30年と言われています。世界一の高齢化社会となり、出生率は統計以来の過去最低を更新。付随して、事業後継者不在・過疎化・空き家問題・貧困問題・老老介護など多くの社会課題が表面化しています。我々は金融×事業の力で、まずは産業界から日本を再起させることに尽力致します。同志が立ち上がり、ここに集いました。

a_bicky 2013/06/25

リンク

The best stats you've ever seen | Hans Rosling

http://www.ted.com With the drama and urgency of a sportscaster, statistics guru Hans Rosling uses an amazing new presentation tool, Gapminder, to present data that debunks several myths about world development. Rosling is professor of international health at Sweden's Karolinska Institute, and founder of Gapminder, a nonprofit that brings vital global data to life. (Recorded February 2006 in Mont

a_bicky 2013/05/03

motion chart を使った TED での講演（英語の字幕もある）。これはすごいなぁ

statistics

リンク

図（だけ）で説明する回帰分析筒井淳也 2011.7 1 決定モデルの場合計量分析では、何のために回帰分析をするのでしょうか？たとえば、「学歴が収入に与える影響」について知りたいとし��

図（だけ）で説明する回帰分析筒井淳也 2011.7 1 決定モデルの場合計量分析では、何のために回帰分析をするのでしょうか？たとえば、「学歴が収入に与える影響」について知りたいとしましょう。このとき、ランダム抽出されたデータを使って、学歴ごとの収入の平均値を求めて、その差をみるだけではダメです。なぜなら、学歴と収入の両者に影響する要因（たとえば性別）があって、その効果のために学歴の収入に対する効果が過大（あるいは過小）に見積もられる可能性があるからです。学歴によって性別が変わるわけではない以上、性別の効果は学歴と切り離して考えるべきなのは当然でしょう。ここで、もし収入に影響する要因が性別（男女）と学歴（高卒と大卒のみ、という世界を考える）だけであるとしよう。このときは、男女の高卒・大卒、計 4 グループからひとりずつ誰でもよいので抽出して、その 4 点から回帰係数を計算

a_bicky 2013/04/12

「撹乱項（未投入の要因）の中にもし説明変数と相関するものがあれば、観察して投入しなければならない」と多重共線性は矛盾してる気がするんだけどよくわかってない

statistics

リンク

M-estimators

a_bicky 2013/04/12

M 推定の解説としては個人的に一番わかりやすい

statistics

リンク

二群の平均値（代表値）の差を検定するとき

二群の平均値（代表値）の差を検定するとき First upload: Feb 02, 2007 Last modified: Feb 10, 2007 1. はじめに二群の平均値（代表値）の差の検定をするときに，両群の分散が違うといろいろ問題が残る。粕谷によれば，そのようなときには，分散の影響を受けない中央値検定を採用すればよいと書いてあるという情報・書き込みがいくつも現れる。本当にそうだろうか。粕谷1)はそのように書いてあるのだろうか。いろいろ検討してみたが，粕谷は「分散が等しくないから中央値検定」などと単純には言っていないようだし，その後の同じ学会誌に Markus Neuhäuser2) は別の提言をしている。分散が等しくない場合の二群の代表値の差の検定に困難が伴うのは古くからの議論である。しかし，だからといって，データ水準や検出力の面から考えて最低位に位置づけられれ中央

a_bicky 2012/01/06

各種検定の考察

statistics

リンク

マン・ホイットニーのU検定 - Wikipedia

この記事は検証可能な参考文献や出典が全く示されていないか、不十分です。出典を追加して記事の信頼性向上にご協力ください。（このテンプレートの使い方）出典検索?: "マン・ホイットニーのU検定" – ニュース · 書籍 · スカラー · CiNii · J-STAGE · NDL · dlib.jp · ジャパンサーチ · TWL (2015年9月) マン・ホイットニーのU検定（マン・ホイットニーのユーけんてい、英: Mann–Whitney U test）はノンパラメトリックな統計学的検定の一つであり、特に特定の母集団がもう一方よりも大きな値を持つ傾向にある時に、2つの母集団が同じであるとする帰無仮説に基づいて検定する。ウィルコクソンの順位和検定と呼ばれるのも実質的に同じ方法であり、まとめてマン・ホイットニー・ウィルコクソン検定とも呼ばれる。マン・ホイットニーのU検定は、正規分布の混合

a_bicky 2012/01/06

母集団の分布が正規分布じゃない場合の2標本検定

statistics

リンク

統計学入門−第1章

1.3 データの要約方法 (1) 度数分布図統計学ではデータをどのようにして要約し、集団の様子をどのように記述するのでしょうか？それを説明するために第1節の体重測定の例をもう一度取り上げてみましょう。データを要約したい時は、まず始めにデータを見やすいようにグラフ化します。それには横軸にデータの値を取り、縦軸にその数をプロットした度数分布図(frequency distribution)を用います。一般的な度数分布図ではデータの値をいくつかの区間に区切り、その区間の中に入るデータの数を柱状グラフとしてプロットします。この図が度数分布図と呼ばれるわけは、データの数のことを数学では度数と呼ぶからです。体重測定のデータを度数分布図で表したところ、図1.3.1のようになったとします。このように最初にデータを目に見えるようにグラフ化する(見える化する)のは大変重要です。これによってデ

a_bicky 2011/12/28

標準誤差について

statistics

リンク

7. 統計誤差

a_bicky 2011/12/27

中心極限定理に言及した統計誤差の説明

statistics

リンク

統計学

この単元では，高校｢数学Ｃ｣で扱う分野を，幅広くとらえ，｢各種分布｣の単元を除き，高校数学程度の知識で十分対応できるように工夫してあります。このソフトの特徴は，二項分布において，ある時は正規分布で近似したり，ある時はポアソン分布で近似したりします。どうしてこのような時に，正規分布で近似するのか，または，ポアソン分布で近似したりするのか疑問に思う時があります。このような疑問に対し，なるべくグラフを用いて，また，シュミレーションを用いて表現するようにいろいろな工夫を行ないました。

a_bicky 2010/01/28

リンク

はてなブックマーク

タグ

関連タグで絞り込む (3)

statisticsに関するa_bickyのブックマーク (14)

お知らせ

今週のはてなブックマーク数ランキング（2025年4月第3週）

今週のはてなブックマーク数ランキング（2025年4月第2週）

今週のはてなブックマーク数ランキング（2025年4月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス