タグ

障害に関するshibacowのブックマーク (2)

  • Amazonクラウドの大規模障害、そのときに内部で何が起きていたのか? 日本語での要約

    4月21日から23日のあいだ、Foursquare、Quora、Herokuなど多くのサービスに影響を与えたAmazonクラウドの大規模障害。このとき実際にどのような障害が発生していて、どう対応したのか、詳しい日語での資料がAmazonから公開されています。 この資料は非常に詳細に記されているため、短時間で内容を把握できるものではありません。そこで記事では資料からポイントを引用し、要約してみました。 以下からの記事はあくまで独自に内容を要約したものです。正確な情報は原文をご覧ください。 今回発生した障害とは何だったのか? 今回発生した障害を手短にまとめると、米国東 (US East) リージョンにおける一部のアベイラビリティゾーンにおいて、Amazon Elastic Block Store (EBS) で読み込み、書き込み操作が行えなくなる、という現象でした。 そして障害の影響は一部

    Amazonクラウドの大規模障害、そのときに内部で何が起きていたのか? 日本語での要約
    shibacow
    shibacow 2011/05/09
    EC2の障害説明。ひとつのオペミスが、玉突き事故みたいに、影響を与える。巨大なシステムにはあることなのだろう。
  • Amazon Web Servicesの障害はなぜ起こったのか アマゾンが詳細な経緯と対策を発表 − @IT

    2011/04/30 米Amazon Web Services(AWS)は米国時間4月29日午後、同社のブロックストレージサービス「Amazon Elastic Block Store(EBS)」および、リレーショナルデータベースサービスの「Amazon Relational Database Service(RDS)」における約4日間にわたる障害につき、詳細な経過報告と対策を発表した。これによると、障害のきっかけはネットワークの構成変更作業におけるミスだった。同社は今回の障害が複数のAvailability Zone(AZ)に影響を与えた理由も説明した。 AWSが発表した今回の障害に関する説明(英語) EBSはAWSの仮想サーバサービスであるAmazon EC2のインスタンスから、仮想ディスクとして使える永続ストレージサービス。実態としてはディスクを備えたノード(コンピュータ)の集合体を

    shibacow
    shibacow 2011/05/02
    ネットワーク接続ミスと言う人的なエラーが、EBSレプリカ作成モードの爆発と言う別のエラーを誘発する。JRで、一つの路線で遅れが生じると、複数の路線に伝播するのに似ている。巨大システムは似たような構造を持つ。
  • 1