タグ

関連タグで絞り込む (2)

タグの絞り込みを解除

tipsとbigdataに関するmyrmecoleonのブックマーク (1)

  • ETLよりもELTが大事になってくることを納得できる例 | 栗原潔のIT弁理士日記

    #今回は知財ではなく純粋にITの話です。なお、SoftbankのCMとも関係ありません。 データウェアハウスを構築する上で重要な処理にETL(Extract Transformation Load)があります。文字通り、データソースのシステムからデータを「抽出」し、「変換」し、データウェアハウスに「ロード」する処理のことです。 「変換」処理では、複数ソースのデータを統合して、データの形式をそろえたり、不正データを排除したりします。いわゆるデータ・クレンジング(洗浄)と呼ばれる処理です。これによってデータウェアハウスにロードされるデータの品質を向上できます。 しかし、ビッグデータの世界ではこのデータ洗浄をしてからロードするという考え方が必ずしも適切ではなくなってきます。データ品質とは一義的に決まるものではなく、分析の文脈によって変わってくるからです。データ管理者ではなくデータサイエンティスト

    ETLよりもELTが大事になってくることを納得できる例 | 栗原潔のIT弁理士日記
    myrmecoleon
    myrmecoleon 2013/03/13
    ビッグデータの世界では,データクレンジングは目的に応じてギリギリのタイミングでやる方がよい。分類・検索の事前結合から事後結合への変化に似てる感じ。
  • 1