はじめまして。MSPグループの夜勤チームのいかろちゃんです。 夜勤チームには特有の仕事がいくつかあります。 その中のひとつが各サーバにおける監視状況や通知設定が適切な状態にあるかをチェックするという仕事です。 今回はそれについて特にどういう部分を自動化していて、どうやって運用しているのかを紹介します。 はじめに サーバ監視業務を行ううえで不要なアラートを抑制することは重要です。アラートを抑制しないと大量のアラートに埋もれてしまったり、あるいはアラート通知が「どうせ対応不要のアラートだからいいや」など本当に重要なアラートを見逃してしまう可能性が上がってしまうためです。不要なアラートとして比較的多く見られるものは計画したメンテナンスや作業によるアラートが挙げられます。 ハートビーツ作業やお客様によるメンテナンスの際に一時的に監視通知の停止(以下、通知停止)や監視チェック実行の停止(以下、監視停