先週6月14日に発生したAmazon Web Servicesの米国東部リージョンでのシステム障害は、HerokuやPinterestなど大手のサービスにも影響を与えたようです。その障害報告が、Service Health Dashboardで公開されています(現在はRSS内の記述として読めます)。 障害は米国東部リージョンでの特定のアベイラビリティゾーンで発生したもの。報告によると、プライマリの電源ケーブルのトラブルをきっかけにバックアップとしての発電機へ移行したものの、そこでもまたトラブルが発生し、二重、三重の防護策が次々に倒れていったことが示されています。 Amazonクラウドの多重の防護策の一端が分かると共に、これだけバックアップ策が用意されていても、わずかなトラブルによって防護策が倒れることの教訓を得ることができます。 一方で、障害は特定のアベイラビリティゾーン内だったため、マル