タグ

ブックマーク / qiita.com/frsyuki (1)

  • 大規模データを確実にMySQL/Redshiftに入れる—Treasure Dataのクエリ結果書き出し機能の実装 - Qiita

    こんにちは。古橋です。今日はいつものはてなブログから趣向を変えて、QiitaでTDアドベントカレンダー14日目の投稿です。 Hiveのクエリ結果をRDBに書き出したい MapReduceはメモリに収まりきらないデータをJOINしたり集計したりできる信頼性の高いアーキテクチャですが、どうしても1発のクエリを実行するのに時間がかかるので、人間がいじりながら使う可視化ツールに直接繋ぎ込むには向いていません。 そこで Prestoを使って集計する 方法もありますが、やはりMapReduceの方が向いているケースもあります。例えば、 Webサイトに一度は来てくれたのに、その後1週間アクセスのない人が、最後に見ていったページはどこだろう? 過去にアイテムAを買った人が良く買っている別のアイテムは何だろう? (バスケット分析のクエリ例) といった、巨大テーブル同士のJOINや自己結合が必要なケースは、や

    大規模データを確実にMySQL/Redshiftに入れる—Treasure Dataのクエリ結果書き出し機能の実装 - Qiita
  • 1