タグ

統計に関するunikovのブックマーク (3)

  • 厚労省・新型コロナ陽性者データに内在する不可解な矛盾|馬の眼 ishtarist

    議論とデータ新型コロナウイルスの対応について、日中で議論が巻き起こっています。曰く、検査数は増やすべきか否か、日の実際の感染者数がどれぐらいなのか、いつごろ収束するのか、他国より対策がうまくいっているのか否か、全国一斉休校に意味があるのかなどなど。そうした議論は民主主義国家として望ましいものですが、しかし生産的な議論を行うためには、まず共有可能で信頼できるデータが必要不可欠です。 データ分析の世界ではgarbage in, garbage out「ゴミを入力すれば、ゴミしか出力しない」と、よく言われます。有意義な分析をするためには、最低限、データがまともである必要があります。まともなデータとは、最低限、正しいデータ入力と、論理的整合性が必要です。だからデータアナリストは、分析の前に必ずデータの整合性を検討し、矛盾のないカテゴリ体系を設計し、データの整備に過半の力を注ぐのです。 厚労省デ

    厚労省・新型コロナ陽性者データに内在する不可解な矛盾|馬の眼 ishtarist
  • 【保存版】一次情報をゲットするために確認するべきウェブサイトをまとめてみました(随時更新) - とある浪速の調査雑記

  • 統計の基本事項

    トップページ→研究分野と周辺→システムの評価→ 基統計量 平均(算術平均)値は、(データ値の総和)÷(データ数)となる。(或るデータの値)-(平均値)を、そのデータの偏差という。偏差の絶対値の大きいデータが多ければ、そのデータ群はばらつきが大きい。データ群のばらつきの大きさを単純に偏差の総和とすると、偏差には正負があるので相殺されてしまう。 そこで、各データの偏差を二乗する(こうすれば必ず正の値になる)。(各データの偏差の二乗の総和)÷(データ数)をそのデータ群の分散と呼び、ばらつきの大きさを表す。また、分散の平方根を標準偏差という。英語では偏差はDeviation、分散はVariance、標準偏差はStandard Deviationとなるので、標準偏差はS.D.と略記される事も多い。 統計の最も基的な量である基統計量としては、他に最大値、最小値、範囲(最大値-最小値)、中央値(デ

  • 1