サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
体力トレーニング
zenn.dev/torun225
この記事は、本番環境でやらかしちゃった人 Advent Calendar 2021の17日目の記事になります。 数年前にやらかした「障害対応中に冗長構成のサーバを取り違えて、二次障害を発生させた」件について懺悔しつつ振り返ることで、ヒューマンエラーに対する自分の考え方を共有したいと思います。 当時の業務 当時は複数のオンプレミスのシステムに対して、24時間体制で運用・保守を実施する部署に所属していました。 担当としては、システムの監視業務が主で、システムが発報したアラームを確認し、初期対応を行ってから開発部門にエスカレーションするまでを行っていました。 システムの概要 障害となったシステムは、デュープレックス構成[1]のサーバを備えており、クラスタ管理ソフトによって制御されていました。 システムの概要 障害発生前のサーバ状態はA系が待機系、B系が稼働系となっており、通常と逆の運用状態でした
このページを最初にブックマークしてみませんか?
『zenn.dev』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く