8/23(金)に起きたAWSの東京リージョンでの障害について、 新卒2年目のインフラエンジニアとしてやったことをまとめておきます。 同様の障害が起きた時の備忘録代わりです。 障害発生時 監視しているサーバーでのステータスチェックエラーが広い範囲で生じたため、 障害の範囲を特定するために先輩エンジニアを参考に、以下を行いました。 Twitter監視 Twitterで「AWS」と検索した時のツイートから、 されている言語/報告されている障害発生中のサービスを特定します。 記憶の限りでは、日本語で幅広いサービスで障害が確認できました。 (「AWS障害中?」「弊社のAWSサーバーが〜」みたいなツイートです。) ここから日本限定で、かつ弊社の東京リージョンのサーバーの障害範囲から、 AWSの東京リージョンの一部で障害が発生していると仮説を立てました。 (この時点でAWSからの障害報告はありませんでし