タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

名寄せに関するwaterblueのブックマーク (2)

  • 覚えておきたい!「名寄せ」の基本 第2回 標準化でデータのばらつきを解消する:ITpro

    このデータをざっとみると,データの形式にばらつきがあることがわかります。このようなデータから同一人物を割り出すためには,どの項目をキーとしてどのような突き合わせをすればよいでしょうか。 データは,図3以外にも膨大にあるので,人間の目で見て判断するのではなく,どのようにしてプログラムで自動的に同一人物を割り出していくかを考えてみてください。人間の目で見れば,4番目の「斎藤 太郎」と最後から4番目の「斉藤 太郎」,最後の「斉藤太郎」というデータは同一人物であると予測できますが,それを自動で判断する場合,どのようなプログラムを用意しますか? ◆名寄せ技術1「調査」 まず,どの項目をキーとして判断していくかを決める必要があります。図3をよく見てみると,「生年月日」は空白データが多数あるため,キーとして有効ではありません。次に「電話番号」は,全く同じ番号であれば同一人物である確率は高いものです。しか

    覚えておきたい!「名寄せ」の基本 第2回 標準化でデータのばらつきを解消する:ITpro
  • 第1回 データ・クレンジングと名寄せ技術:ITpro

    皆さんは,企業のシステムが提供している情報(データ)をどれくらい信用していますか。 例えば,社内の製品担当者に問い合わせをしたい場合,社内システムを使って,製品から担当者を割り出し,担当者名から電話番号を検索,その電話番号に電話をかけてみるでしょう。この場合,社内システムから得られる情報はおおむね信用できるでしょう。製品担当者の変更が更新されていないといったこともあるかもしれませんが,そのような場合は社内であれば引き継ぎ担当者を教えてもらうことで状況を理解できるので,まずは情報を信じて電話をかけてみるのではないでしょうか。 では,社外のお客様へ連絡するときはどうでしょうか。この場合は少し慎重になるでしょう。社内情報を検索するとき以上に各種システムから信用できる必要な情報を慎重に収集し,行動に移すはずです。私の友人のA君もそうでした。 使えないデータたち A君はある電気製品の販売を担当する営

    第1回 データ・クレンジングと名寄せ技術:ITpro
  • 1