タグ

統計に関するanimistのブックマーク (87)

  • 自分の中に判断基準を持つために──『ダメな統計学: 悲惨なほど完全なる手引書』 - 基本読書

    ダメな統計学: 悲惨なほど完全なる手引書 作者: アレックスラインハート,Alex Reinhart,西原史暁出版社/メーカー: 勁草書房発売日: 2017/01/27メディア: 単行この商品を含むブログ (4件) を見るこの科学全盛の現代、世の中数字ばかりである。研究不正は後を絶たず、統計の誤謬が最低限見抜けなければ誤った情報で結論を導くはめになってしまうから、統計の基礎知識は科学者やデータサイエンティストのみならず必要不可欠になってきている。 世はまさに大科学時代 そこで『ダメな統計学: 悲惨なほど完全なる手引書』が登場する。書は統計学の入門書──というわけではなく、ダメな統計学の用いられ方/ダメな統計の取り方はどのようなものか、なぜダメな統計なんてものが出てきてしまうのかといった人間の心理面、環境面まで含めて一つ一つ取り上げ、仔細検討し、読んだ人間が統計手法を用いる際の誤りを減ら

    自分の中に判断基準を持つために──『ダメな統計学: 悲惨なほど完全なる手引書』 - 基本読書
  • 偏差値とは?母集団、平均、正規分布からわかりやすく説明します - おまきざるの自由研究

    はじめに 偏差値のおおもとは平均値 偏差値の計算には平均値と標準偏差が欠かせない 偏差値とはなんぞや? 標準化得点とは 偏差値とは 実際のデータを使って偏差値を計算してみよう 偏差値を作った男 おわりに:こんなときは注意しよう 標準偏差の求め方の参考HPと書籍 その他の参考HP等 はじめに 大学受験,高校受験,あるいは中学受験のとき,偏差値という言葉を聞いたことがない日人はいないと思います. 中には偏差値で人生が変わった人も少なからずいることでしょう. うちの子たちの受験でも『進学レーダー』に添付されてる各校偏差値一覧を何度も何度も何度も何度も目にしました. でも受験が終わってふと我に返るとその偏差値はいったいどんな計算をしてはじきだされるのか私は説明できませんでした. 筆者は統計検定について仕事の都合で否応なくそれなりに勉強しましたが,偏差値はスルーしていたのです. そこで,このエント

    偏差値とは?母集団、平均、正規分布からわかりやすく説明します - おまきざるの自由研究
  • 打者の全盛期 | Baseball LAB「Archives」

    これからピークを迎える選手と峠を越えた選手ではその価値に大きな差が出ます。選手の全盛期を見極めることは編成にとって大きな課題で、特に選手との複数年契約を考える場合は重要になります。現在の球界やメディアの報道を見ると、一般的に打者のピークは30代前後と考えられているようです。今回は過去のNPB選手を参考にしながら、打者の全盛期について考えていこうと思います。 1.年齢別の一軍出場選手数 最初に年齢別の一軍出場選手数を確認していきましょう。今回のデータは1940年以降のデータを参照しています。各年齢で1打席でも打席に立てば出場選手数に加算しています。過去のデータを見ると、高卒の19歳から年齢を経るごとに徐々に一軍での出場選手数が増えていき、大卒選手(23歳)の入団で一気に出場選手数がピークに近づきます。25歳(2573名)で一軍の試合に出場した選手数が最も多くなり、それ以降は出場選手数が減少に

    打者の全盛期 | Baseball LAB「Archives」
    animist
    animist 2017/04/11
    思ってたより若くに打撃のピークってくるんだなぁ。それ以降も活躍する超一流が印象強いだけなのかな
  • 中日ファンのみなさん、開幕10試合で5敗以上してもCS進出確率は53.6%もあります!

    Search, watch, and cook every single Tasty recipe and video ever - all in one place! News, Politics, Culture, Life, Entertainment, and more. Stories that matter to you.

    中日ファンのみなさん、開幕10試合で5敗以上してもCS進出確率は53.6%もあります!
  • 九州・近畿の男は、東京の男より“ハーレム”なのか?

    上京せず、地元に残留する男が女にモテる? 私は18歳のとき、鹿児島から東京に出てきました。高校3年の級友の半分以上が県外流出したと記憶しています。鹿児島は高度経済成長期の頃から、若者の流出が全国で最も激しい県だそうです。 各地域の人口流出(流入)の規模を測る指標として、転入超過率というものがあります。ある年の転入者数から転出者数を引いた値(転入超過人口)を、当該年初頭の人口で除して算出します。 首都の東京には毎年、就職などの目的で20代前半の若者がどっと押し寄せてきます。2015年の『住民基台帳人口移動報告』によると、同年中に東京に転入してきた20代前半人口は10万6925人。逆に東京から他県に流出した同年齢人口は5万6511人。よって転入超過数は、前者から後者を引いて5万414人となります。これを同年1月1日時点の20代前半人口(71万4792人)で除して、東京の20代前半の転入超過率

    九州・近畿の男は、東京の男より“ハーレム”なのか?
  • エラーページ - ヤフー株式会社

    指定されたURLは存在しません。 URLが正しく入力されていないか、このページが削除された可能性があります。

    エラーページ - ヤフー株式会社
    animist
    animist 2016/03/09
    オモシろいなー。自動車メーカーは東京で広告してる費用を他に振り分けた方がいいレベル
  • 競馬の予測をガチでやってみた - stockedge.jpの技術メモ

    的に競馬なんてやるべきではないと私は思っている。胴元の取り分が多いからだ。宝くじに比べればまだましだが、それでも賭け金の20~30%は胴元に取られることになる。*1 しかし今回は、ちょっと思い立って競馬の予測をやってみることにした。 理由は馬券の安さだ。私は現在、資金量が少ない人間でも不利にならない投資先を探しているのだが、馬券の一枚100円という安さは魅力的に映る。株の場合にはどんな安い株であれ最低購入額は数万円以上*2なので、ある程度まとまった資金が必要になる。 また、競馬には技術介入の余地(努力次第で勝利できる可能性)がある。 例えばこんな例がある。 160億円ボロ儲け!英投資会社が日の競馬で荒稼ぎした驚きの手法 - NAVER まとめ 彼らは統計解析によって競馬で勝っており、その所得を隠していたらしい。こういうニュースが出るということは、解析者の腕次第では競馬で勝てる可能性が

    競馬の予測をガチでやってみた - stockedge.jpの技術メモ
  • 【サッカー】ポアソン分布を使ってtoto予想してみた。 - 実験スピリッツ

    あらゆるスポーツはデータ分析によって評価されています。今回はサッカーです。 調べてみた結果、試合のゴール数はポアソン分布(正規分布)に従うと仮定できるそうで、簡単そうなのでやってみます。 ※かなり前に実験してみた結果なので、その辺はご容赦下さい。 ポアソン分布とは ポアソン分布は平均値を変数として使用することで、ある事象が起こる確率を求めることができます。 今回の場合、λに平均得点、kに得点の0点~3点を代入します。 例えば、2015年サンフレッチェ広島は1ゲームあたり平均2.03ゴールを得点する可能性があります。この情報をポアソン方程式に当てはめると、広島が試合で0ゴールになる確率は13%、1ゴールは27%、2ゴールは27%、3ゴールは18%になります。簡単ですね。 しかしながら、サッカーは対戦相手あってのものです。単純に、これをそのまま利用するのは適切ではありません。 検証する対象試合

    【サッカー】ポアソン分布を使ってtoto予想してみた。 - 実験スピリッツ
  • 【安保報道】朝毎東は「違憲」派学者重用、読産日は憲法学者に触れずー6月の新聞1面を分析(楊井人文) - エキスパート - Yahoo!ニュース

    GoHooトピックス7月10日】新聞1面で憲法学者の言説をたびたび取り上げたメディアがある一方で、全く言及しなかったメディアもある――国会で審議されている安保法制に関する報道の実態を調べるため、日報道検証機構は読売、産経、日経、毎日、朝日、東京の6紙を対象に、データベースを利用するなどして6月1日~30日の紙面を調査し、分析した。その結果、各紙の紙面に憲法学者が登場する頻度や、法案が違憲か合憲かをめぐる見出しの付け方に大きな違いがあることが、浮き彫りになった。 各紙とも、5月までは憲法学者に言及した記事はほとんどなかったが、6月4日に衆議院憲法審査会の参考人質疑で憲法学者3人が政府が提出している安保法案について「憲法違反」と表明した直後から急増。5月は主な憲法学者11人の名前もしくは「憲法学者」という表現が出てくる記事は6紙あわせて約50件だったが、6月は約380件あった。実名で言及さ

    【安保報道】朝毎東は「違憲」派学者重用、読産日は憲法学者に触れずー6月の新聞1面を分析(楊井人文) - エキスパート - Yahoo!ニュース
  • 年金24万円は安いのか - ゆとりずむ

    こんばんは。らくからちゃです。 弊社では、年に1回の昇給の結果が、6月支給分のお賃金から反映されます。野口さん二人分上がっていました(´・ω・`)。どの偉い人が決めて頂いたのかは分かりませんが、有難うございます。 そういえば、最近は、どのニュースを見てもこの件で持ちきりですね。 ちょうど先輩が新幹線で出張にいく予定がキャンセルになったところだったので、『何かよく分からないですけど、キャンセルになっててよかったっすねー』とか、そんな話をしていましたが、まさかこんなことになってたんですね。 勿論、誰かを巻き添えにするなんて言語道断ですが、死人に石を投げるようなことはしたくありません。ですので、その件について触れる気は有りませんが、わたしが気になったのはこの箇所です。 近所の女性によると、林崎容疑者は2カ月ごとに支払われる年金の額について「35年間払っているのに24万円しかもらえない。税金や光熱

    年金24万円は安いのか - ゆとりずむ
  • 幼なじみ婚の増加から考える日本の社会構造の変化 - ゆとりずむ

    こんばんは。 いつも、通勤電車で『Yahoo!リアルタイム検索』のランキングをウォッチしています。先日も、だらだら眺めていたところ『幼なじみ婚』という耳慣れないキーワードが上位に引っかかりました。 どうやら朝の情報番組ZIPでこんな特集が組まれたみたいですね。 サッカー日本代表の内田選手が、幼なじみと結婚したことを引き合いに、番組独自調査結果を発表。その結果、 20代・30代の夫婦・・・50組中7組 40代・50代の夫婦・・・50組中1組 ほら、大急増!! ・・・うさんくせえ( ´Д`)=3 いや、適当に調べた50組で、そんな微妙な結果持って来られてもねえ┐(´∀`)┌ と、いうわけで折角だからちゃんとしたデータがないものか調べてみました。 確かに幼なじみ婚は増えている さて、今回は厚生労働省の外郭団体である国立社会保障・人口問題研究所のデータを見てみます。同研究所では、人口問題の調査研究

    幼なじみ婚の増加から考える日本の社会構造の変化 - ゆとりずむ
  • 平均値の罠:「シンプソンのパラドックス」 - サイエンスメディアな日々   インフォグラフィクスな日々

    たとえば、ある国の政府がこんな分析結果を公表したとする。 > 年収1000万円以上、年収500万円〜1000万円未満、年収500万円以下、どの階層でも平均所得が上がっている この分析は正しいと仮定して、これだけでこの国全体の平均所得は上がっている、と結論づけていいのだろうか? 部分の平均がすべて上がっているのだから、それを合わせた全体の平均も当然上がっているはず。そんなの当たり前だ、と直感的には思う。実は、これは神永正博著「直感を裏切る数学」で紹介されている事例。ほんのタイトルから察せられる通り、各層の平均値は上がっていても全体の平均値は下がっていることがありうる、というものだ。の中にある具体的な例で説明する。 今、国民を、年収500万円を境にして「高所得者」と「低所得者」を分けるとする。そして国民は4人からなり、「高所得者」には年間所得1400万円と600万円の二人が、「低所得者」には

    平均値の罠:「シンプソンのパラドックス」 - サイエンスメディアな日々   インフォグラフィクスな日々
  • 日本の若者のコンピュータスキルが低いという話 | Intermittent Diary

    「Young Japanese have terrible computer skills. No, really – Quartz」という記事が一部で話題になってる.ざっと読むと「んな訳ないだろ」と思うのだが,素直に受け取り,シェア/RTする人もいたりして,何だかなぁと思う訳です. こういうときは元資料にあたるのが一番なので,ちょっと読んでみた. 結論を先に言えば,このデータは日の若者の現状を正確にあらわしていない可能性があり得ると思う.しかしそういうデータが出てしまった原因は明らかではない. 追記: 致命的な誤り(読み違い)が1点あったので文修正しました.誤っていたのは,ICT基礎テストの合否は事前質問(background questionnaire)の結果から決めるのではなく,コンピュータ・ベースの調査の一番最初に行われる「ICT test (stage 1)」の結果によって判

    日本の若者のコンピュータスキルが低いという話 | Intermittent Diary
  • 職業別の年収と未婚率の相関

    2014年2月9日の記事では,職業別の生涯未婚率を明らかにしたのですが,この記事はブログの中で一番読まれています。このようなデータはあまりないため,多くの人の関心を引いたのだと思います。 はて,なぜ職業によって未婚率が異なるのか。個々人の自由意思の総和が偶然そうなっているだけだ,という説明は到底成り立ちません。言わずもがな,各職業が得る富量や威信(prestige)が大きく影響しているとみられます。とりわけ男性にあってはそうでしょう。 それぞれの職業の威信は数値化が難しいのですが,各々が手にする富量は年収という指標で可視化できます。今回は,「就業構造基調査」の職業中分類の統計を使って,年収と生涯未婚率の相関図を描いてみようと思います。わが国の結婚市場の現実を明らかにする作業の一つです。 私はまず,2012年の「就業構造基調査」のデータを用いて,有業男女の職業別の平均年収を計算しました

    職業別の年収と未婚率の相関
  • グラフでウソをつく方法――統計リテラシーのための基礎文献(松谷創一郎) - エキスパート - Yahoo!ニュース

    ウソグラフの世界 ここ数年、統計学がブームとなっています。オープンデータやビッグデータなど、IT化の進展とともにそれまで以上にさまざまな数字が扱われるようになっています。 そんな統計において、欠かせないものがグラフです。数値を図形化して視覚的な理解をうながすグラフには、棒グラフ、折れ線グラフ、円グラフなどなど、さまざまな種類があります。 ただ、意図的かどうかはさておき、作為が加えられたグラフを見かけることも珍しくありません。数値に手を加えることはもってのほかですが、それよりも目立つのは見せ方を工夫(作為)して実際の数値以上の効果や影響を錯覚させようとするものです。そうしたものは、「ウソグラフ」あるいは「クソグラフ」などと呼ばれたりします。 それでは、こうしたウソグラフにはどういうものがあるのでしょうか? 電子コミック市場は急成長? 先日『News Picks』という新興のネットメディアに、

    グラフでウソをつく方法――統計リテラシーのための基礎文献(松谷創一郎) - エキスパート - Yahoo!ニュース
  • 「天候不順で景気低迷」なんて大ウソ!消費増税の影響無視した内閣府の「素人分析」を暴く(髙橋 洋一) @gendai_biz

    最近の景気低迷について、政府は、消費増税による影響を無視して、天候不順によると主張している。内閣府は、今年の天候不順が経済に与えた影響について、1日に開かれた経済財政諮問会議に報告した。それによれば、今夏の天候不順(低温・多雨)によって、7-9月の個人消費に与える影響は、▲0.2~▲0.7兆円程度。これを7-9月期のGDPでみると、年率換算で▲0.8~▲2.4%ポイント押し下げることになる。 甘利明・経済財政相は1日の記者会見で面白いことを言っている(→こちら)。 「7-9月期の民間見通しが4%です。これが仮に天候要因を加味したものであるならば、天候要因がなければ5.6%ということになるということでありますし、天候要因を加味していないのであるならば、それは2.4%になるということだと思います」 天候要因が景気に与える影響がこれだけ大きいなら、これからエコノミストは気象予報士の資格を義務付け

    「天候不順で景気低迷」なんて大ウソ!消費増税の影響無視した内閣府の「素人分析」を暴く(髙橋 洋一) @gendai_biz
  • 「首つり自殺数」と「アメリカの科学・宇宙・テクノロジーに関する支出」など無関係のデータ同士で相関性をむりやり発見する「Spurious Correlations」 - GIGAZINE

    ほんのわずかな初期の要因の変化が最終的に思いがけないほど差のある結果を招く現象を「バタフライ効果」と呼びますが、そんな現象は身近なところでも起こっているのかもしれないと思わせるような、一見すると関係のない2つのデータに相関性を見いだすプロジェクトが「Spurious Correlations」です。 Spurious Correlations http://www.tylervigen.com/ 1999年~2009年までの「アメリカの科学・宇宙・テクノロジーに関する支出」と「首つり自殺数」の上昇傾向が一致。 「水泳プールでの溺死数」と「ニコラス・ケイジの映画出演数」が、なぜか似たような傾向で上下しています。つまり、ニコラス・ケイジが映画に出演しなければプールでの事故が激減するのかもしれません。 「アメリカ人1人あたりのチーズ消費量」と「ベッドシーツに絡まって死亡する数」がほぼ一致。 「ア

    「首つり自殺数」と「アメリカの科学・宇宙・テクノロジーに関する支出」など無関係のデータ同士で相関性をむりやり発見する「Spurious Correlations」 - GIGAZINE
    animist
    animist 2014/05/12
    おもろい
  • P値が有意になるように頑張りすぎちゃっていませんか?

    Natureに統計学的検定の問題についてのエッセイが出ていた。フィッシャー、ネイマン、ピアソンの言い争いの紹介も含めて、P値にまつわる議論を短くまとめている。何でも、この世には統計学的に有意であるのに再現性の無い調査や研究は多々あるのだが、統計学的な検定を盲信してしまい考察が疎かになっているせいだそうだ。 P値を扱うときの問題が三つ上げられている。一つは、偽陽性の可能性がP値から連想する以上に高いことだそうだ。統計学的な厳密な議論は説明されていなかったが、例えば帰無仮説が0.5のときに、P値が0.01で有意になったとしても、再現実験では11%以上の確率で再現が得られないそうだ。一つは統計的有意であることに満足して、その効果の大きさを考察しないことがあるそうだ。一つは、P値が有意になるように分析方法を工夫しすぎてしまうケース(P-hacking)があるそうだ。 エッセイでは探索的研究と検証的

    P値が有意になるように頑張りすぎちゃっていませんか?
  • セブンとユニクロを“超えた”作業服販売チェーン、ビッグデータで発注自動化

    コンビニ業界で圧倒的な強さを誇る「セブンイレブン」を展開するセブン&アイ・ホールディングスと「ユニクロ」を手掛けるファーストリテイリング。こうした流通業の巨人たちを“超えた”作業服販売チェーンがある。全国に700店舗以上の作業服・作業用品店を展開するワークマンだ。 ワークマンの株式時価総額は約800億円で、セブンの50分の1ほど。にもかかわらず、株式時価総額を従業員数で割った「従業員1人当たりの株式時価総額」で比較すると、立場は逆転する。ワークマンの従業員1人当たりの株式時価総額は約3億6000万円で、セブンの10倍超、ファストリの約2倍の水準だ。 ワークマンは2013年、従業員1人当たりの株式時価総額を全社のKPI(重要業績評価指標)に設定した。「社員1人ひとりの力を最大限に引き出し、企業価値を高め、株主に報いたかった」(CIO=最高情報責任者の土屋哲雄常務取締役)。今は従業員1人当たり

    セブンとユニクロを“超えた”作業服販売チェーン、ビッグデータで発注自動化
  • 「数式が苦手でも統計やりたいのでRで試す」は現実問題としてはアリだと思う - 渋谷駅前で働くデータサイエンティストのブログ

    むしろ数式が苦手だけど統計を勉強したいという人はRをやるといいかもしれない - Line 1: Error: Invalid Blog('by Esehara' ) ものすごくブコメを集めてるので、読んでみました。で、結論から言うと「四の五の言う人はいるかもしれないけどデータ分析の世界への入り口としてはアリ」だと思った次第です。 ということを書くと、どこからともなく「ハァ?ちゃんとした原理も何も知らずにツールだけ使って分かった気になっても意味ないよ?」みたいなツッコミが飛んできそうな気がしますが。。。有体に書くと、確かにアカデミックの世界ではそうだと思います*1。けれども、ビジネスの現場ではこれも一つのチョイスだと言ってよいと思うのです。以下にその理由を挙げていきます。 「目の前の問題に統計学がどんな結果を返して見せてくれるのか」が分かることは、理解する上で最も手っ取り早い 世の中の人の多

    「数式が苦手でも統計やりたいのでRで試す」は現実問題としてはアリだと思う - 渋谷駅前で働くデータサイエンティストのブログ