はじめに 監視システムからアラートを受信した後におこなう対応のうち、手順が決まっていて誰がやっても同じ部分(一次対応)を自動化して、その後対応するエンジニアが楽になるようにお膳立てします。 監視アラート対応 監視から通知される情報は、一時点・一監視項目(メトリクス)の情報にすぎません。 対応するエンジニアが適切な診断・正しい対応判断するためには情報不足であり、追加でその周辺情報や時系列遷移を情報収集するという作業が毎回発生しています。 今回はこの情報収集作業を、監視の通知がされたらすぐに自動で行われるようにします。 これができると、 エンジニアが情報収集作業を飛ばして、即時に対応が開始できるようになります。 なんといっても楽ですし、復旧時間を短縮でき、障害によるサービスレベルの低下・損失を最小化できます。 CPU使用率やメモリ使用率の一過性の閾値超過など、エンジニアが確認したときには既に解
![mackerelで監視した後の一次対応を自動化する話 - Qiita](https://cdn-ak-scissors.b.st-hatena.com/image/square/4a13c5e313b287d2d4089b39b95bba1b35c58d7a/height=288;version=1;width=512/https%3A%2F%2Fqiita-user-contents.imgix.net%2Fhttps%253A%252F%252Fcdn.qiita.com%252Fassets%252Fpublic%252Farticle-ogp-background-9f5428127621718a910c8b63951390ad.png%3Fixlib%3Drb-4.0.0%26w%3D1200%26mark64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTkxNiZoPTMzNiZ0eHQ9bWFja2VyZWwlRTMlODElQTclRTclOUIlQTMlRTglQTYlOTYlRTMlODElOTclRTMlODElOUYlRTUlQkUlOEMlRTMlODElQUUlRTQlQjglODAlRTYlQUMlQTElRTUlQUYlQkUlRTUlQkYlOUMlRTMlODIlOTIlRTglODclQUElRTUlOEIlOTUlRTUlOEMlOTYlRTMlODElOTklRTMlODIlOEIlRTglQTklQjEmdHh0LWNvbG9yPSUyMzIxMjEyMSZ0eHQtZm9udD1IaXJhZ2lubyUyMFNhbnMlMjBXNiZ0eHQtc2l6ZT01NiZ0eHQtY2xpcD1lbGxpcHNpcyZ0eHQtYWxpZ249bGVmdCUyQ3RvcCZzPTc4MDNjNjJhMzkyZjE5MDNjNjM0NmIzNDNmZDQ3MzI0%26mark-x%3D142%26mark-y%3D112%26blend64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTYxNiZ0eHQ9JTQwc2FrYXp1a2kmdHh0LWNvbG9yPSUyMzIxMjEyMSZ0eHQtZm9udD1IaXJhZ2lubyUyMFNhbnMlMjBXNiZ0eHQtc2l6ZT0zNiZ0eHQtYWxpZ249bGVmdCUyQ3RvcCZzPTlmMjMxODc5NWJkMWY5YzM3Yzc1OWQ2OWE2YmM0ZTg5%26blend-x%3D142%26blend-y%3D491%26blend-mode%3Dnormal%26s%3Dd17bd1bc39e0072bcc0da4459d5cbb27)