fluentdでnginxのログをHBaseとHDFSに送り込み、それぞれHive or Impalaで遊んで集計かけてみた。 実行環境は以下2台。 nginx + td-agent (Amazon EC2 t1.micro、CentOS) Hive + Impala + HBase (Amazon EC2 m1.large、CentOS、CDH4.3のHadoop疑似分散モード) ログを送り込むための設定は以下のようにした。テーブルマッピングは実際のHBaseテーブルに沿って記述する。一応ローカルマシンにも書き込む設定にした。 /etc/td-agent/td-agent.conf <source> type tail format apache path /var/log/nginx/access.log pos_file /var/log/td-agent/nginx.pos tag