はじめに こんにちは。cappy_potterです。 MailDealer と ChatDeaeler という弊社サービスのインフラ運用チームのリーダを担当しています。 現状、これら2サービスで稼働しているサーバの数は、合計で1,000台近くありますが、 これだけサーバがあると、様々な障害も発生します。 中でも、仮想基盤機器やネットワーク機器で障害が発生した場合は、影響範囲が大きくなりやすいです。 主にそういったものに対し、「どうすればチームとして迅速に対応できるようになるか?」ということを考え、実践したことについて紹介したいと思います。 はじめに 過去発生した障害について 周知に時間がかかる要因 各要因への対策 要因①:各自バラバラに対応していて、ムダが生じている 要因②:周知を行う際の目標時間を定めていない 要因③:周知文に記載する内容を都度考えている 要因④:影響範囲特定に必要なアク