AWS Advent Calendar 2012 に参加させてもらいました。21日担当です。 AWSでWEBサイトをホストするときのログのライフサイクルについて、まとめてみました。 WEBサーバーの一般的なログの扱いは以下のような感じだと思います。 各インスタンスのアクセスログを1箇所に集める 複数のログファイルを1ファイルにまとめてソートする 集計をする 古いログのバックアップをとり、削除する これをAWSで行なってみると例えば以下のようになります。 fluentdを使って各インスタンスのログを1つのバケットAに送る EMRで1つにまとめてソート。別のバケットBに保存 EMRで集計もして、別のバケットBに保存 バケットAの期限が過ぎたものをGlacierに送る 図にすると以下のようなイメージです。 1.各インスタンスのアクセスログを1箇所に集める これはfluentdでtail→s3で行
![EMRってなんじゃ?(ログ、ゆりかごから墓場まで)](https://cdn-ak-scissors.b.st-hatena.com/image/square/5cd43d032deedec2d43b4a44153066309bb3fb88/height=288;version=1;width=512/http%3A%2F%2F3.bp.blogspot.com%2F-MfyPEIJUem4%2FUNQK3ndXPMI%2FAAAAAAAAC5Q%2Fg0B9Ht8CP1Y%2Fw1200-h630-p-k-no-nu%2Fhive.png)