タムタムです。Hadoop アドベントカレンダーの12/24分 を書かせていただきます。 それと、時々ログ解析飲み会というものをやっているという噂があるのですが、わたしも混ぜてください>< さて、まずはじめに・・。 ログが整形されているなんて都市伝説です。 自分が作るアプリは最初からログ設計をして整形して出力しているのですが、世の中そんなものばかりではありません。Hiveで集計するためにはある程度書式が整っていないとスマートに処理できません。 適当なスクリプトで処理するのも手ですが、もともと分散しないと処理できないほどの量なのに、それを分散環境で処理しないとか無いと思います・・。 となると、スクリプトを書いてHadoop Streamingでログを処理すればいいよねーとなるわけです。が、用途はある程度限られてしまいますが実はHiveでも出来ます。 例えば、以下のようなログがあるとします。