エンジニア組織としての監視文化の作り方 Nagisa インフラエンジニアの榎戸です。 今回は僕が入社してから一年が経ったので、 僕が感じた事とやってきたことを監視に絞って書きたいと思います。 ※また今回は技術的な内容についてはあまり触れておりませんのでご了承ください。 入社時の状況 今ではかなり改善できたので笑い話となりますが 当時(昨年9月)はなかなか言葉には出しづらい状態でした。 当時の状況 監視はCloudWatchに数個 Nagiosとmuninが監視の役目を果たさず稼働している 監視の重要性の認識不足 障害が起きてから数時間後に気付く 障害対応をすると感謝されながらランチに連れて行ってもらえる こんな状態でした。 インフラエンジニアとして入社したのに 障害対応をするとランチに連れて行ってもらえる という体験には驚きと動揺が隠せませんでした。 今まで当たり前だった障害対応ですが お