タグ

2015年3月1日のブックマーク (1件)

  • ETLフレームワークとジョブ管理 - wyukawa's diary

    Treasure Dataが面白い記事を書いていたのでこれに関連してETLフレームワークとジョブ管理について僕の経験、意見を書いてみようと思います。 Managing the Data Pipeline with Git + Luigi - Treasure Data Blog リンク先の記事を僕なりに要約すると、 データやそれを加工するスクリプトがちらばって管理が辛くなり、エラーが起きた時のリカバリが難しい。 ↓ それを解決するETLツールというのもあって、例えばGUIでフローチャートみたいなのを書いてデータの加工処理を行うことができる。 ↓ それだとバージョン管理できないし、ビッグデータにフィットしないケースもある。 ↓ そこでGitとLuigiを使ったData Pipelineが良いよ! 紹介されているコードの例がこちら。 Hiveで集計してTDのテーブルにinsertするのがTas

    ETLフレームワークとジョブ管理 - wyukawa's diary
    taroleo
    taroleo 2015/03/01
    なるほど。ためになる