タグ

データクレンジングに関するmimosa3mo3のブックマーク (1)

  • 覚えておきたい!「名寄せ」の基本 - ITpro

    “システムを作成するときには考慮されていなかった観点でデータを使おうとしたとき”に「使えないデータたち」は発生します。しかし,使えないデータだからと言って捨ててしまうことはできないでしょう。なぜなら,そのデータは今まで使っていたデータであり,これからも使うデータだからです。 では,使えないデータを使えるデータにするにはどうすれば良いのでしょうか。その作業は「データ・クレンジング(Data Cleansing)」と呼ばれます。データ・クレンジングに似た言葉として「名寄せ」というものがあります。名寄せはデータ・クレンジングをした結果,データ間の関連性を導き出す行為です。重複データを特定するという観点では,名寄せはデータ・クレンジングの一環です。 この連載は,名寄せ技術について,個人データの例をとりあげて具体的に説明します。データを扱うソフト技術者/開発者にとって,名寄せは必須知識の一つと言って

    覚えておきたい!「名寄せ」の基本 - ITpro
  • 1