Image from Datadog はじめに こんにちは。エンジニアのみかみです。DevOpsを推進するための、ビルドツール、CI、監視系の設計や管理ツールの作成を担当しています。インフラエンジニアっぽいですが、実際はチーム内の困ったを拾うキャッチャーで、よろず相談屋をやっています。 さて、今回は監視についてのお話です。 最近、安価で柔軟に使えるクラウドサービスが提供され、新規サービスの開発が容易になりました。 しかし、サービスをリリースしたものの、ある程度サービスが認知されてくると突然システムが故障したり、予期せぬ不具合が突然発生し困ったことはないでしょうか? サービスの稼働率を100%保証することは技術的に難しく、サーバー稼働率99.9%を保証しているサービスが多いですが、この数字でも年に9時間は停止する計算になります。100%の動作保証が難しいのならば、何時停止したとしても、すぐに
![スタートアップ向け監視設計入門::Innova EngineerBlog](https://cdn-ak-scissors.b.st-hatena.com/image/square/48e97592705a60994d1351ee5fbd73724e21a596/height=288;version=1;width=512/https%3A%2F%2Ftech.innova-jp.com%2Ffiles%2F4814%2F2563%2F4949%2FDatadog_Logo.png)