[B! 名寄せ] waterblueのブックマーク

waterblue id:waterblue

名寄せに関するwaterblueのブックマーク (2)

覚えておきたい！「名寄せ」の基本第2回標準化でデータのばらつきを解消する：ITpro
このデータをざっとみると，データの形式にばらつきがあることがわかります。このようなデータから同一人物を割り出すためには，どの項目をキーとしてどのような突き合わせをすればよいでしょうか。データは，図3以外にも膨大にあるので，人間の目で見て判断するのではなく，どのようにしてプログラムで自動的に同一人物を割り出していくかを考えてみてください。人間の目で見れば，4番目の「斎藤太郎」と最後から4番目の「斉藤太郎」，最後の「斉藤太郎」というデータは同一人物であると予測できますが，それを自動で判断する場合，どのようなプログラムを用意しますか？ ◆名寄せ技術1「調査」まず，どの項目をキーとして判断していくかを決める必要があります。図3をよく見てみると，「生年月日」は空白データが多数あるため，キーとして有効ではありません。次に「電話番号」は，全く同じ番号であれば同一人物である確率は高いものです。しか
waterblue 2007/07/02
システム

名寄せ
リンク
第1回データ・クレンジングと名寄せ技術：ITpro
皆さんは，企業のシステムが提供している情報（データ）をどれくらい信用していますか。例えば，社内の製品担当者に問い合わせをしたい場合，社内システムを使って，製品から担当者を割り出し，担当者名から電話番号を検索，その電話番号に電話をかけてみるでしょう。この場合，社内システムから得られる情報はおおむね信用できるでしょう。製品担当者の変更が更新されていないといったこともあるかもしれませんが，そのような場合は社内であれば引き継ぎ担当者を教えてもらうことで状況を理解できるので，まずは情報を信じて電話をかけてみるのではないでしょうか。では，社外のお客様へ連絡するときはどうでしょうか。この場合は少し慎重になるでしょう。社内情報を検索するとき以上に各種システムから信用できる必要な情報を慎重に収集し，行動に移すはずです。私の友人のA君もそうでした。使えないデータたち A君はある電気製品の販売を担当する営
waterblue 2007/06/19
システム

名寄せ
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx