タグ

予防保守に関するtsupoのブックマーク (1)

  • HDD交換ミス&バグで4時間ダウンしてしまう「ひかり電話」 ― @IT

    2007/05/24 NTT東日、西日の光IP電話サービス「ひかり電話」が東西間で不通になった5月23日の障害の原因が判明した。障害のきっかけは東西間の通話を中継するサーバのハードディスクドライブの交換。人的ミスとソフトウェアのバグが約4時間の不通を引き起こした。 作業を担当したNTT-MEの担当者が、中継サーバのHDDを交換したのは5月21日深夜から5月22日未明。故障ではなく予防的措置として交換した。その際、作業者が間違ったコマンドパラメータを設定したが、サーバのフェイルセーフ機能が不十分で、誤ったパラメータを受け付けてしまった。さらに、誤ったパラメータでHDDのデータが破壊されるバグがソフトウェアにあり、HDDのデータが一部破壊されてしまった。 この破壊されたデータが23日午前6時25分にサーバのキャッシュメモリに読み出され、サーバの処理が停止。東西間で不通状態になった。番サー

    tsupo
    tsupo 2007/05/25
    「予防的措置」としてのハードディスク交換時の入力ミスが原因 / フェイルセーフ機能が不十分 / 代替サーバとHDDもハードウェアの障害時に切り替わるように設定、今回のソフトウェアの障害では機能しなかった
  • 1