近年、マイクロデータへのアクセス可能性が高まり、計算機やソフトウェアの開発も進み、多くの研究者が豊かなデータベースを構築し、実証分析を行っている。マイクロデータを用いた実証分析は、エビデンスに基づく経済政策の立案にとって不可欠である。しかし現状でも、大規模なマイクロデータを入手した際には、分析可能な形にクリーニングし、形成するのに多大な時間を要する。また、データによっても形式 (txt、csv、固定長、特定のソフトでのみ読み込み可など)が異なり、変数名の定義や個体認識IDなどのルールも煩雑で、その都度時間をかけてデータを理解し、向き合っていくことになる。さらに、通常は複数統計を使用するので、マッチングの作業も必要となってくる。 データハンドリングに慣れている研究者でも、作業工程でミスをしてしまうことがあるが、その誤りが実証分析に与える影響は大きく本質的である。ゆえにデータ構築には膨大な試行