データ分析に関する議論では「データをどのように分析するか」「どうやって、どのような統計的手法を用いるか」といった話題が中心です。 例えば統計的因果推論のための分析方法に関する書籍やブログ記事はたくさんありますが、「どうやって傾向スコアを使うのか」「数式上、なぜ傾向スコアを使うと(仮定のもとで)効果が検証できるのか」といったテクニカルな議論は多いものの、「分析の対象となるデータの特徴が結果にどのような影響を与えるのか」といった議論は少ないです。 巷のデータ分析に関する議論には、「使用しているデータが完璧である」という仮定のもとに成り立っているものも少なくありません。 ところが現実世界のデータは非常に汚い、完璧とは程遠いということは実際にデータ分析に関わったことがある人ならわかると思います。 そこで今回は、 データが誰から得られたのか なんのデータがどのように測定されたのか という2つの視点か