先週の水曜日、アマゾンのクラウドサービスAmazon EC2を運用中の米国のデータセンターに落雷があり、電力配分装置(Power Distribution Unit:PDU)が破損。一部のサービスが停止するという事故がありました。 このときアマゾンの内部では何が起きてどう対応したのか? アマゾンがクラウドの稼働状況を報告している「AWS Service Health Dashboard」にあがっている、6月10日の報告を翻訳しながら追ってみましょう(時刻は現地時間の午後です)。 Amazonによる障害復旧報告 6:39PM 「アベイラビリティゾーン」にあるいくつかのインスタンスが電源の故障によって接続できなくなったことを検知しました。接続は回復済みで、問題を調査中です。 6:54PM いくつかのホストはまだ接続できていません。引き続き調査中です。 7:33PM 中間報告。落雷によって1カ所