「監視ツールは入れています。アラートも設定しています。でも障害は、ユーザーから教えてもらっています」 これを、複数の組織で聞いた。そのたびに少し複雑な気持ちになる。問題はツールではないからだ。 「入れているのに気づかない」の原因は、たいてい同じ3つの場所にある。複数の組織で同じパターンを見ていると、それが確信に変わった。設定の問題というより問いの立て方の問題だ。 「監視できている」の定義が、ずれていた 監視の目的を「インフラが正常かどうか確認すること」だと定義すると、多くの組織では「監視できている」になる。CPUは正常、メモリは正常、エラーレートも閾値内。それを見て「問題ない」と判断する。 ところがその間に、ユーザーは「画面が真っ白」「ボタンが押せない」という体験をしている。 あるチームの支援に入ったとき、まさにその状況だった。監視ダッシュボードはすべてグリーンだ。それでも「ユーザーから使

