米アマゾン・ドット・コムが運営するクラウドサービス「アマゾン・ウェブ・サービス(AWS)」で23日、大規模なシステム障害が発生し、影響は広範囲に及んだ。企業はコスト削減の一環で、自社でサーバーを導入する従来手法からデータセンターをインターネット経由で利用するクラウドにシフトしている。今回の大規模障害はクラウドに集中することのもろさを浮き彫りにした。【関連記事】アマゾンのクラウド「AWS」で大規模障害今回はAWSを提供する東京近郊に4群あるデータセンターのうち1つで問題が起きた
![クラウド集中にもろさ アマゾン「AWS」大規模障害 - 日本経済新聞](https://cdn-ak-scissors.b.st-hatena.com/image/square/13c6756e88a187a86013d96d5e665eca1dddd9d1/height=288;version=1;width=512/https%3A%2F%2Farticle-image-ix.nikkei.com%2Fhttps%253A%252F%252Fimgix-proxy.n8s.jp%252FDSXMZO4895557023082019EA1000-3.jpg%3Fixlib%3Djs-3.8.0%26auto%3Dformat%252Ccompress%26fit%3Dcrop%26bg%3DFFFFFF%26w%3D1200%26h%3D630%26s%3D22663a48bf0350bbaac6d8a1800ef79b)
こちらが何を聞いても、一事が万事この調子です。その後、スケジュールに押し切られる形でシステムはリリースされ、現場は火の海となりました。 鳴りやまない監視アラーム…… 対処方法のわからない障害…… 使い道のわからない体裁だけ整った手順書の数々…… 右往左往する運用メンバーと構築メンバー…… 結局、運用が安定するまで半年以上の期間がかかりました。 その頃は「運用設計」という言葉も概念もまだ浸透しておらず、残業によるマンパワーで運用を安定稼働させるしか術はありませんでした。 (この時にこの本があったら、どれだけ指標になったかと今なら思います)。 運用を取り入れた設計構築へのチャレンジ この経験から、運用が大変な理由の諸悪の根源はシステムリリース時にあると考え始めました。いま思えば、初めに入った楽園のような現場は、目的のはっきりした手順書しかなく、トラブル時の連絡先も明確でした。“楽園システ
AWSで大きな障害が発生したこの機会に、自分がクラウドと正しく付き合っていくために必要なことを考える。 piyolog.hatenadiary.jp ちなみに稼働率 99.99% くらいを目指していくために必要な事を考える。 必要な稼働率を見極める 今回は 99.99% くらいを目指すと言ったが、実際に自分たちにとってどのくらいの稼働率を目指すか?ということはとてもとても大切だ。 幸い、今回自分は影響がなかったが、本当に完璧か?と言われるとそうではない。 まず弊社の場合、マルチリージョンではないので東京リージョンが落ちたら落ちる。 これを許容できない場合に99.99%を目指せるか?というと正直厳しい。 しかしサイトの規模はそんなに大きくないのでデータサイズも現実的に転送出来る範囲で、コンポーネントも少なく、TerraformやAnsibleによって再構築しやすい状態は整っている。 そのため
黒は光を吸収する色だが、それでも黒い物体に光を当てれば、ある程度の光を反射する。しかし、ほとんど光を反射せず、ほぼ全て吸収してしまう「究極の暗黒シート」を産業技術総合研究所(産総研)が開発したという。シートの素材はゴムで、量産性にも優れるとしている。どんな仕組みなのか。
このブログ記事で 「MultiAZ」にしていたら何事も全て大丈夫という認識を変えられると嬉しいです (当該の時点で障害起こした人はちゃんとMultiAZにしてなかったんでしょ?という人の認識も変えられると嬉しいです)。 MultiAZにしておくことは基本 です。 その上でも、 安心しきらずに監視は必要 という話をしています。 MultiAZ構成にしておきましょう そのうえで監視、検知、トレーサビリティを大切にしましょう MultiAZ要らないという見当外れの解釈はしないでください (一部、間違えた解釈をしてるコメントも見受けられましたが、大いに違います)。 前提 2019-08-23、AWSで大規模な障害が起こりました。 障害の一般的な内容は以下のとおりです。 まとめのブログ https://piyolog.hatenadiary.jp/entry/2019/08/23/174801 AW
8月23日午後1時ごろに発生した、米Amazon Web Servicesのクラウドサービス「AWS」の東京リージョンでの障害について、同社は午後8時18分、クラウドサーバの復旧がほぼ完了したことを明らかにした。制御システムの障害により、サーバの温度が上がりすぎたことが原因だったという。 同社によると問題が起きたのは、「Amazon Elastic Compute Cloud」(EC2)の東京リージョンを構成する4つのデータセンター(アベイラビリティーゾーン、AZ)の内の1カ所。AZ内の制御システムに問題が発生し、複数の冗長化冷却システムに障害が起きたという。結果として、AZ内の少数のEC2サーバが過熱状態となり、障害として表面化したとしている。 冷却システムは午後3時21分に復旧。午後6時30分までに、ほぼ全てのストレージ(EBSボリューム)とインスタンスが復旧したという。 同社は、障害
2019年8月23日 13時頃からAmazon AWS 東京リージョン でシステム障害が発生し、EC2インスタンスに接続できない等の影響が発生しています。ここでは関連する情報をまとめます。 AWSの障害報告 aws.amazon.com AWS障害の状況 障害発生時間(EC2) 約6時間 2019年8月23日 12時36分頃~18時30分頃(大部分の復旧) 障害発生時間(RDS) 約9時間半 2019年8月23日 12時36分頃~22時5分頃 障害原因(EC2) 一部EC2サーバーのオーバーヒートによる停止 制御システム障害により冷却システムが故障したことに起因 影響範囲 東京リージョン(AP-NORTHEAST-1)の単一のAZに存在する一部EC2、EBS、およびRDS。 発生リージョンは東京。東京近郊4データセンター群の内、1つで発生。 日本国内のAWSの契約先は数十万件とみられる。*
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く