このデータをざっとみると,データの形式にばらつきがあることがわかります。このようなデータから同一人物を割り出すためには,どの項目をキーとしてどのような突き合わせをすればよいでしょうか。 データは,図3以外にも膨大にあるので,人間の目で見て判断するのではなく,どのようにしてプログラムで自動的に同一人物を割り出していくかを考えてみてください。人間の目で見れば,4番目の「斎藤 太郎」と最後から4番目の「斉藤 太郎」,最後の「斉藤太郎」というデータは同一人物であると予測できますが,それを自動で判断する場合,どのようなプログラムを用意しますか? ◆名寄せ技術1「調査」 まず,どの項目をキーとして判断していくかを決める必要があります。図3をよく見てみると,「生年月日」は空白データが多数あるため,キーとして有効ではありません。次に「電話番号」は,全く同じ番号であれば同一人物である確率は高いものです。しか
![覚えておきたい!「名寄せ」の基本 第2回 標準化でデータのばらつきを解消する:ITpro](https://cdn-ak-scissors.b.st-hatena.com/image/square/bed39b5962a5d552c95b6d796db8f55e72d32943/height=288;version=1;width=512/https%3A%2F%2Fxtech.nikkei.com%2Fimages%2Fn%2Fxtech%2F2020%2Fogp_nikkeixtech_hexagon.jpg%3F20220512)