こんにちは、エンジニアリングGの高橋です。 去年の11月にエムスリーにSREとして参画してから、サーバのセットアップ作業などの基本的なインフラ作業に加えて、各サービスのサービスレベルの設定や監視の仕組み作りなども行ってきました。 今回はそのサービスレベルを監視する仕組みをご紹介したいと思います。 本稿の流れ SLI設定 SLO設定 各種メトリクスの収集 アラーティング 監視ダッシュボードの作成 まとめ 全体像 ざっくりとした全体像としては上図のような感じです。 また、この取り組みを実施した前後で、下のような変化(効果)がありました。 前 ログの収集はしているが、全サービスでは取れていない ログの収集経路がサーバによって異なる(Service AからElasticsearchとかもあったり) 後 全サービスのアクセスログを収集・閲覧可能 ログの収集経路を共通化 ほとんどのサービス(70以上)