ログをHDFSに集めてHiveでETLや集計を行い集計結果をRDBMSに蓄積してレポーティングツールで可視化するというのは一般的な話だと思います。 データの流れでいうと App -> HDFS -> RDBMS -> レポーティングツール という感じです。 他にもPrestoのようなlow latencyなツールが加わることがあると思います。これらのツールをどう組み合わせてどうETLをまわしていくのがいいのかつらつらと最近考えております。 僕が経験したのはPythonでETL処理を書いて(内部的にはhiveserverにhiveクエリを投げたり、MySQLに集計結果を保存したり)、スケジューリングはcron, Azkabanで、集計結果はMySQLでレポーティングツールは自作でというものです。adhocなデータ分析はshib使います。まあこれでも十分運用回ってるんだけど、他にも良い方法が無