タグ

障害に関するkawaosoのブックマーク (4)

  • Amazonクラウドの大規模障害を経て、これからは「データセンターはいつか落ちる」ことがサービス設計の前提となる

    4月21日に発生したAmazonクラウドの米国東海岸データセンターで起こった大規模障害により、Foursquare、Quora、Herokuなど多くのサービスに影響がありました。 すでに障害は復旧し、Amazonクラウドの運営チームからは詳細な報告と今後の対応策について記したドキュメント「Summary of the Amazon EC2 and Amazon RDS Service Disruption in the US East Region」が公開されています。公式な日語訳「 米国東リージョンにおける Amazon EC2 と Amazon RDS のサービス障害 の概要 (参考和訳)」(pdf)も公開されました。 これによると、障害はネットワークの構成を間違えたことをきっかけにして、ストレージサービスの「Amazon Elastic Block Store(EBS)」やデータベ

    Amazonクラウドの大規模障害を経て、これからは「データセンターはいつか落ちる」ことがサービス設計の前提となる
  • Amazonクラウドの大規模障害、そのときに内部で何が起きていたのか? 日本語での要約

    4月21日から23日のあいだ、Foursquare、Quora、Herokuなど多くのサービスに影響を与えたAmazonクラウドの大規模障害。このとき実際にどのような障害が発生していて、どう対応したのか、詳しい日語での資料がAmazonから公開されています。 この資料は非常に詳細に記されているため、短時間で内容を把握できるものではありません。そこで記事では資料からポイントを引用し、要約してみました。 以下からの記事はあくまで独自に内容を要約したものです。正確な情報は原文をご覧ください。 今回発生した障害とは何だったのか? 今回発生した障害を手短にまとめると、米国東 (US East) リージョンにおける一部のアベイラビリティゾーンにおいて、Amazon Elastic Block Store (EBS) で読み込み、書き込み操作が行えなくなる、という現象でした。 そして障害の影響は一部

    Amazonクラウドの大規模障害、そのときに内部で何が起きていたのか? 日本語での要約
  • Amazon Web Servicesの障害はなぜ起こったのか アマゾンが詳細な経緯と対策を発表 − @IT

    2011/04/30 米Amazon Web Services(AWS)は米国時間4月29日午後、同社のブロックストレージサービス「Amazon Elastic Block Store(EBS)」および、リレーショナルデータベースサービスの「Amazon Relational Database Service(RDS)」における約4日間にわたる障害につき、詳細な経過報告と対策を発表した。これによると、障害のきっかけはネットワークの構成変更作業におけるミスだった。同社は今回の障害が複数のAvailability Zone(AZ)に影響を与えた理由も説明した。 AWSが発表した今回の障害に関する説明(英語) EBSはAWSの仮想サーバサービスであるAmazon EC2のインスタンスから、仮想ディスクとして使える永続ストレージサービス。実態としてはディスクを備えたノード(コンピュータ)の集合体を

  • Amazon EC2 障害の詳細とその教訓

    原文(投稿日:2011/04/29)へのリンク Amazon は先日,米国東部リージョンのアベイラビリティゾーンで発生したサービス障害に関する詳細な 報告書 を発表した。その分析や論評,今回の出来事から学ぶべき教訓 などの話題で,オンラインメディアは持ちきりだ。 今回の Amazon EC2 障害の 時間的経緯 の中で Eric Kidd 氏は,AWS のサービス中断に関連する一連の出来事について,外部的な視点から概説している。すべてが始まったのは 2011年4月21日 PDT(太平洋夏時間) 午前1時頃,Heroku がサービス機能に関する大量のエラーを出力し始めた時だ。障害は 4月24日 PDT 午後 7:30 頃,すべての RDS データベースがオンライン復帰したことを Amazon が発表するまで,ほぼ4日間続いた。その間,一部ユーザに対するサービスが停止,ないしは断続的に停止した

    Amazon EC2 障害の詳細とその教訓
  • 1