EMRがImpalaをサポートするようになりました。ImpalaはClouderaが提供するオープンソースのクエリエンジンで、Hiveより断然速いそうです。 例として、Cloudfrontのログを、タイムスタンプをJSTに直して1時間ごとのアクセス数の集計をしてみます。 ログバケットの確認 まずCloudFrontのログが以下のS3にたまっているとします。 s3://memorycraft-impala-input/cf/logs EMRクラスタの起動 次に、EMRクラスタを起動します。 EMRのダッシュボードで「Create Cluster」をクリックし、新規クラスタ作成画面を表示します。 Cluster Configuration Cluster nameに適当なクラスタ名を入力します。また、今回はEMRのログは出力しないのでLoggingのチェックはOFFなんかにしておきます。起動し