こんにちは。 @at_grandpa です。普段はバッチを書いたりメンテナンスをしています。 今回は、先日起きた障害対応の時、チームの状態をスムーズに変えることで対応コストと精神的負荷を抑えられた、ということを書きます。 目次 目次 障害発生 普段の対応 今回の対応 原因究明と現状把握 関係者が会議室に集まる 対応用Slackチャンネルを開設 ペアワークで実対応 落ち着いたら自席&Slackコミュニケーションへ移る 対応完了の確認と報告・チケットまとめ まとめ 障害発生 先日の朝に「レポートの数値がおかしい」という連絡がきて確認したところ、とあることが原因で、バッチの自動実行が約半日行われていないことがわかりました。 普段の対応 普段の対応は以下のような形です。 エラー発生をSlackの全体チャンネルで報告 バッチ系チャンネルにて、考えや現状を垂れ流す わからないことがあれば有識者にメンシ