こんにちは、ミツバチワークス stoneです。 今日は、DECOLOGで行っているApacheのログ解析について、ご紹介してみようかと思います。 現在、DECOLOGでは、リバースプロキシが8台あって、その8台の1日のApacheのログは、全部で、200Gバイト以上になっています。 これを、13台のHadoopのスレーブノードで解析を行っています。 ※別館注:本記事は2010年10月時点の内容です。この後CDNを導入し、解析対象ログは80GB、解析時間は1時間半程度に圧縮されました。Hadoopのノードも11台に減らしています 全体の流れとしては、 リバースプロキシからHDFSにログを転送 解析用のサーバで、HDFSにログの転送が終わるのを監視 ログの転送が終わったら、Hadoopを起動、解析 Hadoopの解析結果をデータベースに保存 以下では、各ステップを個別に見ていくことにしますね。
![HadoopによるApacheのログ解析・実例:DECOLOG TECH BLOG annex:エンジニアライフ](https://cdn-ak-scissors.b.st-hatena.com/image/square/c7f3ec6bb6d60d55b2783d915b9e45138f9c8c96/height=288;version=1;width=512/https%3A%2F%2Fel.jibun.atmarkit.co.jp%2Ffor_sites%2Fimages%2Flogo_el_1200x630.png)