タグ

ブックマーク / kazu.tv (1)

  • DynamoDB + S3 + EMRでコホート分析(cohort analysis)をする(3)

    前回からかなり間が空いてしまったけど、今回で完結予定。 前回はHiveの話を中心に、S3に置いたファイルをHiveでどう扱うかなどについて書いた。また、第1回では全体の流れを書いたので、どんなことをやるかは詳しくはそちらを参照。 今回は、DynamoDBに書き込んでいるデータを定期的にS3にエクスポートしたり、MySQLからエクスポートしたデータに対して、EMR上のHiveからクエリーを実行して結果を取得してみる。 DynamoDBからS3にエクスポート DynamoDBは、事前に設定した読み書きのスループット以上のアクセスは出来ないし、同じデータに対して違うクエリーを複数実行する場合とかに無駄なので、過去データを定期的にS3にエクスポートする事にした。 テーブル定義 まずはDynamoDBのテーブルをHiveに認識させるために、以下のようなテーブルを作成する。 CREATE EXTERN

  • 1