タグ

障害に関するsato_susumuのブックマーク (26)

  • QTnetデータセンターの電源トラブルと楽天カードの決済障害についてまとめてみた - piyolog

    2019年11月23日朝、QTnetのデータセンターで電源設備のトラブルが発生し、これの影響を受け同センター利用各社のサービスが利用できない等の障害が発生しました。(24日時点で完全復旧はしていない)影響を受けた企業の内、楽天カードでは朝からカードが利用できない等のシステム障害が発生しました。ここでは関連する情報をまとめます。 原因はQTnetの電気工事 2019年11月23日 [PDF] 【QTnet データセンター】データセンターシステムの障害による停止について 2019年11月25日 [PDF] データセンターの電源障害による停止について~2019 年 11 月 23 日発表「【QTnet データセンター】データセンターシステムの障害による停止について」の続報~ 2019年11月23日にQTnetはデータセンターで老朽化した電源設備更新のため取り替え工事(約10分間)を行っていた。*

    QTnetデータセンターの電源トラブルと楽天カードの決済障害についてまとめてみた - piyolog
  • AWS大障害、冗長構成でも障害あったと公式に認める

    米アマゾン ウェブ サービス(Amazon Web Services)は2019年8月23日に発生したクラウドサービス「Amazon Web Services(AWS)」東京リージョンの大規模障害に関して同月28日、新しい報告をWebサイトに掲示した。障害が発生したサービスを追加したほか、利用企業が複数のアベイラビリティーゾーン(独立性の高いデータセンター群、AZ)横断の冗長構成にしたシステムにも一部で障害(予期せぬ影響)があったと認めた。 障害が発生していたサービスとして追加したのは日経 xTECHの既報の通り、アプリケーションロードバランサーの「Amazon ALB」、インメモリーキャッシュの「Amazon ElastiCache」、データウエアハウスの「Amazon Redshift」、仮想デスクトップの「Amazon Workspaces」などだ。仮想マシンの「Amazon EC2

    AWS大障害、冗長構成でも障害あったと公式に認める
  • AWS障害、“マルチAZ”なら大丈夫だったのか? インフラエンジニアたちはどう捉えたか、生の声で分かった「実情」

    AWS障害、“マルチAZ”なら大丈夫だったのか? インフラエンジニアたちはどう捉えたか、生の声で分かった「実情」(1/3 ページ) 8月23日に起きたクラウドサービス「AWS」(Amazon Web Services)の東京リージョンでの障害は、国内のさまざまなサービスに影響を及ぼした。 AWSが同日午後8時ごろに復旧するまで、モバイル決済サービス「PayPay」や、仮想通貨取引所「Zaif」、オンラインゲーム「アズールレーン」などで利用できない、もしくは利用しづらい状況が続いた。PCショップの「ドスパラ」はECサイトの不具合が長引き、翌日の24日には実店舗を臨時休業して対応に当たっていた。 AWSという1つのサービス障害が起きただけで、多くの企業やサービスに影響を及ぼしたため、「クラウドサービスはもろい」という論調も散見された。 しかし、インフラエンジニアたちからは違う意見が聞こえてくる

    AWS障害、“マルチAZ”なら大丈夫だったのか? インフラエンジニアたちはどう捉えたか、生の声で分かった「実情」
  • Summary of the Amazon EC2 Issues in the Asia Pacific (Tokyo) Region (AP-NORTHEAST-1)

    2019年8月28日(日時間)更新: 最初の事象概要で言及した通り、今回のイベントは、東京リージョンの1つのアベイラビリティゾーン(AZ)の一部に影響を与えました。この影響は当該 AZ の Amazon EC2 および Amazon EBS のリソースに対するものですが、基盤としている EC2 インスタンスが影響を受けた場合には、当該 AZ の他のサービス(RDS、 Redshift、 ElastiCache および Workspaces 等)にも影響がありました。お客様と今回のイベントの調査をさらに進めたところ、 個別のケースのいくつかで、複数のアベイラビリティゾーンで稼働していたお客様のアプリケーションにも、予期せぬ影響(例えば、 Application Load Balancer を AWS Web Application Firewall やスティッキーセッションと組み合わせてご

    Summary of the Amazon EC2 Issues in the Asia Pacific (Tokyo) Region (AP-NORTHEAST-1)
  • 2019/8/23のAWS東京リージョン大規模障害の経過と原因まとめ - Qiita

    2019/8/23に発生したAWS東京リージョンの大規模障害の経過と、現在確認すべき内容、今後の教訓などをまとめてみました。 9/24 16:00更新: 今回の障害の経過を受け、記事を整理いたしました。 8/23 12:36頃より特定AZにおけるネットワークコネクティビティの障害が発生 8/23 20:18頃、EC2は大規模障害から回復との発表あり 8/23 22:19頃、RDSも22:05頃までに同様に回復との発表あり サービス障害発生時間は8/23 12:36〜22:05 (約9時間半) 8/24 14:00以降、障害の影響でEBSボリュームが回復不能となったアカウントに対し、個別のメールやPersonal Health Dashboardで通知あり 8/25 8:00以降、障害の影響でEBSボリュームが回復不能となったアカウントに対し、個別に続報あり 注: メールが来ていなくても

    2019/8/23のAWS東京リージョン大規模障害の経過と原因まとめ - Qiita
  • AWS 東京リージョンで発生した大規模障害についてまとめてみた - piyolog

    2019年8月23日 13時頃からAmazon AWS 東京リージョン でシステム障害が発生し、EC2インスタンスに接続できない等の影響が発生しています。ここでは関連する情報をまとめます。 AWSの障害報告 aws.amazon.com AWS障害の状況 障害発生時間(EC2) 約6時間 2019年8月23日 12時36分頃~18時30分頃(大部分の復旧) 障害発生時間(RDS) 約9時間半 2019年8月23日 12時36分頃~22時5分頃 障害原因(EC2) 一部EC2サーバーのオーバーヒートによる停止 制御システム障害により冷却システムが故障したことに起因 影響範囲 東京リージョン(AP-NORTHEAST-1)の単一のAZに存在する一部EC2、EBS、およびRDS。 発生リージョンは東京。東京近郊4データセンター群の内、1つで発生。 日国内のAWSの契約先は数十万件とみられる。*

    AWS 東京リージョンで発生した大規模障害についてまとめてみた - piyolog