タグ

統計に関するgarlicgunのブックマーク (64)

  • 今起きている革命、「因果革命」とは - Qiita

    みなさまは"The Causal Revolution" (因果革命)という言葉を聞いたことがあるでしょうか? 私は今月(2021年6月)に初めて知りました。Google Trendsでもデータ不足によりトレンドが表示されません。 つまりまだ全然マイナーな概念で、聞いたことがないほうが自然かと思われますが、これは「来る」と確信したため記事を投稿しました。この確信の根拠の箇所を記事中で太字で書いた他、最後にもまとめたため、記事を読む価値がありそうかの判断には先にそちらを読んでもらってもいいかもしれません。しかしながら、因果革命ないし統計的因果推論は学ぶ価値のある分野です。記事を読まなくても下記に挙げた書籍を未読の方はぜひ一読してみてください。Qiitaでも因果推論についての記事はいくつもあります。しかし、私が感動した点を明示化した記事は見当たらなかったため記事を投稿しました。 この記

    今起きている革命、「因果革命」とは - Qiita
  • 「世界で一番寝ている人が多い時間帯はいつなのか?」実際に計算してみたら衝撃の結果が「その視点はなかった」

    祖父江 慎(そぶえ しん) @sobsin 世界中の全人類ほぼ全員が同時におだやかな睡眠をとってる時間が訪れることってないんだろうな。一番多い%が眠りについてた瞬間って長い歴史の中のいつだったのかな 2021-03-10 06:21:02 Ken Kawamoto(ガリのほう) @kenkawakenkenke これとても面白い疑問だと思ったので、手持ちのデータで簡単に計算してみたら驚きの結果になった。ざっくり「人は現地時間の22時から6時の間寝てる」と仮定した場合、日時間の8時に世界の86%が寝ているという結果に。逆に22時には3%しか寝ていない。極端すぎて少し計算結果に自信ない! twitter.com/sobsin/status/… pic.twitter.com/smzzmOr2OT 2021-03-10 12:06:04

    「世界で一番寝ている人が多い時間帯はいつなのか?」実際に計算してみたら衝撃の結果が「その視点はなかった」
  • 可視化や統計でデータに『恣意的なストーリーを語らせる』16の闇の魔術【bad charts】 - Qiita

    闇の魔術に対する防衛術 Advent Calendar 2020の三日目 はじめに データの可視化は非常に難しい。 まずデータの抽出が難しい ・データソースごとの整合性が取れているか ・取得したデータとソースデータに欠損が生じていないか ・SQL文を実行したサマリの結果が部分的に抜け落ちていないか。 その確認は時間的にも精神的にも苦痛。 しかし、苦労して抽出したデータも使い方で全くの無駄になる その例として「可視化や統計」部分に着目してお話をしようと考えた。 データの背景を知らない人には、データ可視化が歩み寄る手段になるし、伝えたい事をインパクトを伴って伝えられるなど非常にメリットである。 ※ただし 「可視化」の使い方によっては誤った理解をさせることも可能。 伝えたい事だけを正しいように見せる方法もあり、 可視化に詳しくない人に誤解を与えて自分の主張を通すこともできるかもしれない。 これは

    可視化や統計でデータに『恣意的なストーリーを語らせる』16の闇の魔術【bad charts】 - Qiita
  • 東大、都道府県レベルでみた日本人の遺伝的集団構造の調査結果を発表

    東京大学は10月14日、47都道府県に居住する日人約1万1000名の全ゲノムSNP遺伝子型データを用いて、都道府県レベルで日人の遺伝的集団構造の調査を実施した結果を発表した。そしてクラスター分析により、47都道府県は沖縄県とそれ以外の都道府県に分かれ、沖縄県以外は九州・中国地方、東北・北海道地方、近畿・四国地方の3つのクラスターに大別され、関東地方や中部地方の各県はひとつのクラスター内に収まらなかったとした。また同時に、主成分分析の結果、第1主成分は沖縄県との遺伝的距離と関連しており、第2主成分は緯度・経度と関連していたことも判明した。 同成果は、同大学大学院理学系研究科の渡部裕介 大学院生、一色真理子 大学院生(ふたりとも研究当時)、大橋順 准教授らの研究チームによるもの。詳細は、ヒトの遺伝子を扱った学術誌「Journal of Human Genetics」に掲載された。 現代の日

    東大、都道府県レベルでみた日本人の遺伝的集団構造の調査結果を発表
  • 総務省が無料データサイエンス講座を開講、松尾豊氏ら講師に | Ledge.ai

    画像は『総務省統計局「社会人のためのデータサイエンス演習」講座PV』より 総務省は9月29日から、実践的なデータ分析の手法を学習できるとうたう、データサイエンス・オンライン講座「社会人のためのデータサイエンス演習(外部サイト)」を開講している。登録料および受講料は無料。閉講日時は12月7日の23時59分。 講座では、ビジネスや行政での活用を想定しており、社会人や大学生に向けて、ビジネスや業務上での分析事例を中心に実践的なデータ分析(統計分析)の手法をわかりやすく解説するという。前提条件は表計算ソフトMicrosoft Excelの基的な操作ができること。 『総務省統計局「社会人のためのデータサイエンス演習」講座PV』より 講師は、総務省統計局の會田雅人氏、総務省統計局の阿向泰二郎氏、株式会社電通の佐伯諭氏、東京大学の松尾豊氏、株式会社ブレインパッドの奥園朋実氏、株式会社ブレインパッドの

    総務省が無料データサイエンス講座を開講、松尾豊氏ら講師に | Ledge.ai
  • 20代前半女性が本当に着ているファッションブランドランキング

    7/28に追記しました一番下にあります あと文章を一部修正しました 概要3年前にこんなのを書いたんですけど anond:20180624003725 20代前半女性版が必要になったので作りました! ルール年齢以外は前回と同じです 調査対象ブランドはWEARのこのページで投稿数が10000以上の321ブランドこれ以上はやる気ないし必要性も感じないです前回より87ブランド増えていますそのブランドでコーデ検索をすると「そのブランドのアイテムを1つ以上使用したコーデ」が出るので、それを「性別:レディース,ユーザー:その他ユーザー,年齢:22歳~25歳」という条件で絞り込んだ結果件数を「20代前半女性による投稿数」とします その他のユーザーで絞り込むのはブランドの宣伝用アカウントやブランドPRに協力していることもあるWEAR公認ユーザーなどを除外するためです20代前半と言いつつ20~24歳ではなく2

    20代前半女性が本当に着ているファッションブランドランキング
  • 国際比較に使える唯一の指標「超過死亡」で明らかになる実態 - 新型コロナウイルス情報室 - Quora

    今回取り上げるのは、フィナンシャル・タイムズからの「死者数は報告されているよりも60%高い可能性がある」というレポートです。 Global coronavirus death toll could be 60% higher than reported | Free to read ここで、論に入る前に、少し前置きです。 アウトブレイクが現在進行形で起きているときに、異なる国での政策の良し悪しを議論するのに使える、信頼できる統計データとは何でしょうか? 感染者数は、検査の性能・件数・方針などに強く依存するため、もっとも信頼性の低い指標です。一方、死亡者数は、相対的には信頼できる指標ですが、検査を受けないままに死亡してしまったケースについてはアンダーレポート(過小報告)となります。 特にいったん医療崩壊を起こしてしまうとあらゆる報告が追いつかなくなり、感染者数も死亡者数もきちんと管理できな

  • 新型コロナウイルスの国別感染者数(中国以外)

    +44 (0)20 3290 3920 Flourish is a registered trademark of Kiln Enterprises Ltd, UK company 08825531 Acre House, 11–15 William Rd, London NW1 3ER

    新型コロナウイルスの国別感染者数(中国以外)
  • 検診で乳がんが発見された人が100人いたとして - NATROMのブログ

    問題。 検診で乳がんが発見された人が100人いたとします。この100人の中で、がん検診のおかげで乳がんで死なずに済んだ人は、何人ぐらいでしょうか? がん検診を行えば何かしら治療を要するがんが見つかる。しかし、がんを発見できること自体は、がん検診が有効であることを意味しない。「手術を要するがんが見つかってよかったのではないでしょうか」に代表されるような、がん検診に関する誤解はなかなか解けない。 マンモグラフィーによる乳がん検診は有効性が証明された数少ないがん検診の一つだが、その乳がん検診の大まかな効果の大きさを理解することで、がん検診一般についての理解も進むのではないか。そういうわけで冒頭のクイズである。もちろん、検診の対象者や乳がんの診断・治療法によってこの答えは変わってくるが、だいたい、大雑把にどれぐらいなのかを推測していただきたい。 現在の日人のデータがあればいいのだが、残念ながら正

    検診で乳がんが発見された人が100人いたとして - NATROMのブログ
  • Togetter - 国内最大級のTwitterまとめメディア

    いま話題のツイートまとめが読めるTwitterまとめに特化したまとめサイト。人気のツイートやTwitterトレンド、写真やマンガといった話題の画像から、さまざまなニュースの反応まで、みんなであつめる国内最大級のメディアプラットフォームです。

    Togetter - 国内最大級のTwitterまとめメディア
  • 東京新聞:吉田元首相「統計正確なら戦争なかった」 幼い麻生氏に言い聞かせ:政治(TOKYO Web)

    毎月勤労統計の不正調査に関する十八日の衆院予算委員会の集中審議で、麻生太郎副総理兼財務相が祖父の故・吉田茂元首相から、不正確な統計をもとに日戦争に突き進んだと聞かされていたことが話題に上った。

    東京新聞:吉田元首相「統計正確なら戦争なかった」 幼い麻生氏に言い聞かせ:政治(TOKYO Web)
  • 官邸意向で見直しか 厚労省勤労統計の手法(共同通信) - Yahoo!ニュース

    厚生労働省が毎月勤労統計の調査対象入れ替え方法の変更を検討した経緯について、同省関係者が14日、共同通信の取材に「国会でも賃金の話が出ており、何とかしなきゃいけないと思った」と証言した。公正であるべき統計に経済政策を重んじる官邸の意向が影響した可能性が出てきた。2015年、当時の中江元哉首相秘書官に賃金伸び率の低下を説明した同省幹部は「アベノミクスで賃金の動きが注目されている」として急きょ有識者検討会を設け、短期間で結論を出すよう要請していた。

    官邸意向で見直しか 厚労省勤労統計の手法(共同通信) - Yahoo!ニュース
  • 基幹統計に新たな誤りか コンドーム生産量「月4億個」:朝日新聞デジタル

    薬や医療機器の生産実態をまとめた国の基幹統計の「薬事工業生産動態統計」に誤りがある可能性が浮上している。2009年12月のコンドームの生産量が通常より1ケタ多く、09年の年間生産量も上回っていた。統計を所管する厚生労働省は、生産者からの報告が間違っていた可能性もあるとみて、事実関係の確認を進める方針。 厚労省がホームページで公表している同統計によると、09年1~11月のコンドーム生産量は月約2900万~3700万個。だが、12月は十数倍の「4億7538万」個となっており、09年の生産量をまとめた年報の「4億365万」個を超えていた。08、10年の12月は3500万個前後だった。 この不自然な数字は28日付の匿名のブログ上で指摘され、厚労省の担当者もこの日に把握したという。同統計は生産者から報告されたデータをまとめており、「どの生産者から報告されているか調べ、事実関係を確認したい」としている

    基幹統計に新たな誤りか コンドーム生産量「月4億個」:朝日新聞デジタル
  • 統計の不備と、各種統計の「相関」の話 - 山形浩生の「経済のトリセツ」

    Executive Summary 統計の信頼性について疑問を呈した柳下毅一郎のツイートを、山形は一蹴した。が、その後勤労統計の集計方法の不備が露見した。ここから、この統計は捏造であり、それが相関しているならすべての統計が捏造だ、という極論を述べたブログが出た。しかし統計は、一かゼロか、完璧かすべて捏造か、というものではない。またその相互の関係も、機械的な関係があるということではない。信頼性の非常に広い幅の中で上下するだけなので、実際にどんな不備があってどのくらい影響を及ぼすのかを具体的に考えないと、妥当性のない陰謀論に流れてしまうだけだ。 はじめに しばらく前に、柳下毅一郎がこんなツイートをした。 アベノミクスで経済がよくなってるとおっしゃるリフレ派の方々は、なぜ財務省の出す経済指標は捏造されてないと信じられるのだろうか。— Kiichiro Yanashita (@kiichiro)

    統計の不備と、各種統計の「相関」の話 - 山形浩生の「経済のトリセツ」
  • 厚生労働省のコンドームの統計資料にミスがあるかも - 人生万事こじらせるべからず

    勤労統計に誤りがあったが、元の資料が廃棄されてしまっている……というニュースを見てショックを受けました。 「もしかしてコンドームの出荷量の元資料も残ってないのか!?!?」 ライフワークとしてコンドームの出荷量について調べていたところ、15年ほど前までのデータについては他の誰かが作ってくれたグラフが残っていたのですが、最新のものについてはグラフが見つからなかったのです。 そこで、厚生労働省が発表している薬事工業生産動態統計調査から、コンドームの出荷量をひっぱって自力でグラフを作ることにしました。 www.mhlw.go.jp そしたらですね、一か月だけ外れ値を見つけてしまいました。 2009年12月だけコンドームの出荷量が普通の月の20倍になっている様子をご覧ください。 毎月、コンドームは2000〜3000万個の出荷量なのですが、2009年12月においては4億6000万個出荷していることにな

    厚生労働省のコンドームの統計資料にミスがあるかも - 人生万事こじらせるべからず
  • 「国際的に日本の統計に信頼が損なわれるおそれ」雇用保険や労災保険で過少支給も | 注目の発言集 | NHK政治マガジン

    厚生労働省が労働時間や賃金を不適切な手法で調査していたことの影響で、雇用保険や労災保険が来の額より少なく支給されたケースがあり、その総額は現時点で少なくとも数億円規模に上る可能性があることが分かりました。総額はさらに増えるとみられ、厚生労働省はさかのぼって差額を支給する方向で検討しています。 「毎月勤労統計調査」と呼ばれるこの調査は、賃金や労働時間について厚生労働省が毎月、全国の事業所を対象に行っていますが、従業員が500人以上の大規模な事業所についてはすべて調査することになっていたにもかかわらず、都内ではおよそ3分の1の事業所を抽出して行っていました。 政府関係者によりますと、これによって、調査結果をもとに算出される雇用保険の失業給付や労災保険が来の額より少なく支給されていたケースがあり、その総額は現時点で少なくとも数億円規模に上る可能性があるということです。 また、同様の手法は15

    「国際的に日本の統計に信頼が損なわれるおそれ」雇用保険や労災保険で過少支給も | 注目の発言集 | NHK政治マガジン
  • 機械学習システム開発や統計分析を仕事にしたい人にオススメの書籍初級5冊&中級10冊+テーマ別9冊(2019年1月版) - 渋谷駅前で働くデータサイエンティストのブログ

    (Image by Pixabay) この記事は以前の書籍リスト記事のアップデートです。 機械学習エンジニアやデータサイエンティストとして(もしくはそうではない職名であったとしても)機械学習システム開発や統計分析を仕事にしたい人なら、最低限これだけは読んでおいて損はないだろうという書籍を初級向け5冊、中級向け10冊選定しています。ただし、以前とは若干異なり「仕事にする」イコール「プロフェッショナルを目指す」ということで、特に初級向けリストを若干レベルアップさせています。中には初学者でも結構読みこなすのが難しいだけになっているかもしれませんが、中級向けリストに進む上でどうしてもこれだけは読破して欲しいという願望も込めました、ということで。 完全にお馴染みのネタなので特に説明することはないかと思いますが、言うまでもなく以下のリストは完全なる僕個人の独断と偏見で、最近出版されたり自分で読んだ

    機械学習システム開発や統計分析を仕事にしたい人にオススメの書籍初級5冊&中級10冊+テーマ別9冊(2019年1月版) - 渋谷駅前で働くデータサイエンティストのブログ
  • 統計所得、過大に上昇 政府の手法変更が影響 補正調整されず…専門家からは批判も(西日本新聞) - Yahoo!ニュース

    政府の所得関連統計の作成手法が今年に入って見直され、統計上の所得が高めに出ていることが西日新聞の取材で分かった。調査対象となる事業所群を新たな手法で入れ替えるなどした結果、従業員に支払われる現金給与総額の前年比増加率が大きすぎる状態が続いている。補正調整もされていない。景気の重要な判断材料となる統計の誤差は、デフレ脱却を目指す安倍政権の景気判断の甘さにつながる恐れがある。専門家からは批判が出ており、統計の妥当性が問われそうだ。 高めになっているのは、最も代表的な賃金関連統計として知られる「毎月勤労統計調査」。厚生労働省が全国約3万3千の事業所から賃金や労働時間などのデータを得てまとめている。1月に新たな作成手法を採用し、調査対象の半数弱を入れ替えるなどした。 その結果、今年に入っての「現金給与総額」の前年比増加率は1月1・2%▽2月1・0%▽3月2・0%▽4月0・6%▽5月2・1%▽6月

    統計所得、過大に上昇 政府の手法変更が影響 補正調整されず…専門家からは批判も(西日本新聞) - Yahoo!ニュース
  • 人口、労働、賃金、社会保障などについての統計データをどう調べればよいか?|野口悠紀雄

    ◆人口 ・人口の長期時系列データ 人口というのは最も基的な統計データだが、検索エンジンで「人口」と検索しても、どこを見たらよいか分からないだろう。 e-Statには人口の統計があるらしいと分かるが、長期の人口統計がどこにあるか、分からない。探し出しても、いくつかの期間に分かれていて、使いにくい。 私が探した限りでは、『日統計年鑑』にあるこのデータ集が最も使いやすい。ただし、昔は長期に連続した表だったが、いまでは1920年で2つの表に分かれてしまっていて、やや使いにくくなった。 ・人口統計資料集 国立社会保障・人口問題研究所による統計資料集。 江戸時代の人口や世界の人口についての資料も、「Ⅰ.人口および人口増加」率の中にある。 ・将来人口推計 https://www.ipss.go.jp/pp-zenkoku/j/zenkoku2023/db_zenkoku2023/db_r5_suik

    人口、労働、賃金、社会保障などについての統計データをどう調べればよいか?|野口悠紀雄
  • 軽自動車は本当に危ないのか?

    anond:20180821070403 データ厨です。 感情的に「軽自動車は危ない」と印象論で煽っていらっしゃるので、客観的にデータでみてみたいと思います。 結論だけ先に述べると 軽自動車は事故を7%起こしやすく、普通自動車より約4割多く死ぬ。 JNCAPの新安全性能評価でも軽はやはり弱い。だがホンダのN-BOXとN-WGNは別格で、普通車の平均並。 普通車でもスズキソリオX ・三菱デリカD:2は軽以下。 ①衝突安全性について サイズである程度衝突安全性能が決まってしまう。 軽自動車のボディの規格枠は決まっており、全長は3395mm、全幅は1475mmで、全車が共通になっています。最近の売れ筋モデルはそのほとんどが規格いっぱいのギリギリサイズで造られています。 小型/普通車の大きさはいろいろですが、5ナンバーサイズの小型車に属するコンパクトなホンダフィットは、全長が3990mm、全幅は1

    軽自動車は本当に危ないのか?