こんにちは、つるべーです。 先日、福岡のインフラ界隈のエンジニアの方々がやっているSRE本の輪読会に参加し、発表をさせていただいたので、その時の内容をまとめます。 私は、10章の「時系列データからの実践的なアラート」を担当させてもらいました。 はじめに なぜ「時系列データからの実践的なアラート」が必要かを考えてみた。 Webサービスの大規模化や複雑化に伴い、サーバ台数の増加やシステム構成の複雑化が進んだことで、サーバのメトリクス等の情報を高解像度かつ長期間保持したいという要望が高まっている。また、サーバのメトリクスをより統計的に解析し、アラーティングの精度を向上させたいといったシーンも増え、時系列データベースに溜め込んだデータを用いた柔軟なアラーティングの需要が高まっているのではないだろうか。 概要 10章ではBorgmonと呼ばれるGoogleの内部システムについての話が中心だが、「アラ
![Site Reliability Engineering – 10章 時系列データからの実践的なアラート - Fire Engine](https://cdn-ak-scissors.b.st-hatena.com/image/square/b2fce3a0c4e392e3b566993f835afecfff449fc3/height=288;version=1;width=512/https%3A%2F%2Fimages-fe.ssl-images-amazon.com%2Fimages%2FI%2F51Ybz%252B6kIsL._SL160_.jpg)