タグ

障害とawsに関するkei_0000のブックマーク (5)

  • [速報]AWS、クラウド障害をわざと起こす「AWS Fault Injection Simulator」発表。カオスエンジニアリングをマネージドサービスで実現。AWS re:Invent 2020

    Amazon Web Services(AWS)は、開催中のオンラインイベント「AWS re:Invent 2020」で、アプリケーションに対してクラウド障害のシミュレーションを行える新サービス「AWS Fault Injection Simulator」を発表しました。 クラウド上で稼働するアプリケーションの耐障害性などを高めるために実際にクラウド障害をわざと発生させて問題点をあぶりだす手法は、「Chaos Enginieering(カオスエンジニアリング)」と呼ばれています。 Netflixが2012年にカオスエンジニアリングのためのツール「Chaos Monkey」を公開したことで広く知られるようになりました。 参考:サービス障害を起こさないために、障害を起こし続ける。逆転の発想のツールChaos Monkeyを、Netflixがオープンソースで公開 今回発表された「AWS Faul

    [速報]AWS、クラウド障害をわざと起こす「AWS Fault Injection Simulator」発表。カオスエンジニアリングをマネージドサービスで実現。AWS re:Invent 2020
    kei_0000
    kei_0000 2020/12/17
    発生させられる障害の種類全部見れるかな。本番では使えないので、何かできる対策があれば事前にやっておきたい。
  • AWS大障害、冗長構成でも障害あったと公式に認める

    米アマゾン ウェブ サービス(Amazon Web Services)は2019年8月23日に発生したクラウドサービス「Amazon Web Services(AWS)」東京リージョンの大規模障害に関して同月28日、新しい報告をWebサイトに掲示した。障害が発生したサービスを追加したほか、利用企業が複数のアベイラビリティーゾーン(独立性の高いデータセンター群、AZ)横断の冗長構成にしたシステムにも一部で障害(予期せぬ影響)があったと認めた。 障害が発生していたサービスとして追加したのは日経 xTECHの既報の通り、アプリケーションロードバランサーの「Amazon ALB」、インメモリーキャッシュの「Amazon ElastiCache」、データウエアハウスの「Amazon Redshift」、仮想デスクトップの「Amazon Workspaces」などだ。仮想マシンの「Amazon EC2

    AWS大障害、冗長構成でも障害あったと公式に認める
    kei_0000
    kei_0000 2019/08/29
    ALBを使った構成でもダメなら、対策はマルチクラウドとかになるので色んな意味で相当厳しい。数年に1度の障害に備え、毎月いくら追加費用や人件費をかけるかという話になる。なんとかAWS側に頑張って頂きたい
  • Summary of the Amazon EC2 Issues in the Asia Pacific (Tokyo) Region (AP-NORTHEAST-1)

    2019年8月28日(日時間)更新: 最初の事象概要で言及した通り、今回のイベントは、東京リージョンの1つのアベイラビリティゾーン(AZ)の一部に影響を与えました。この影響は当該 AZ の Amazon EC2 および Amazon EBS のリソースに対するものですが、基盤としている EC2 インスタンスが影響を受けた場合には、当該 AZ の他のサービス(RDS、 Redshift、 ElastiCache および Workspaces 等)にも影響がありました。お客様と今回のイベントの調査をさらに進めたところ、 個別のケースのいくつかで、複数のアベイラビリティゾーンで稼働していたお客様のアプリケーションにも、予期せぬ影響(例えば、 Application Load Balancer を AWS Web Application Firewall やスティッキーセッションと組み合わせてご

    Summary of the Amazon EC2 Issues in the Asia Pacific (Tokyo) Region (AP-NORTHEAST-1)
    kei_0000
    kei_0000 2019/08/26
    AWS等のクラウドサービスの社会的な重要度はますます上がってる。今回郵便局とかドコモの一部サービスも落ちてたらしいし。今回は違うが、悪意の持つ人が内部に入り込まない様に十分な対策をお願いしたい。
  • AWS障害で本当に知っておくべきことと考慮すべきこと

    おはようございます、hisayukiです。 盛大なお祭りもだいぶ収束に向かってきました。 ソシャゲ大好きな人達のTwitterでの反応すごかったですね〜(;´∀`) さて、それでは昨日のAWS障害のお祭りについて書いていきたいと思います。

    AWS障害で本当に知っておくべきことと考慮すべきこと
  • AWS 東京リージョンで発生した大規模障害についてまとめてみた - piyolog

    2019年8月23日 13時頃からAmazon AWS 東京リージョン でシステム障害が発生し、EC2インスタンスに接続できない等の影響が発生しています。ここでは関連する情報をまとめます。 AWSの障害報告 aws.amazon.com AWS障害の状況 障害発生時間(EC2) 約6時間 2019年8月23日 12時36分頃~18時30分頃(大部分の復旧) 障害発生時間(RDS) 約9時間半 2019年8月23日 12時36分頃~22時5分頃 障害原因(EC2) 一部EC2サーバーのオーバーヒートによる停止 制御システム障害により冷却システムが故障したことに起因 影響範囲 東京リージョン(AP-NORTHEAST-1)の単一のAZに存在する一部EC2、EBS、およびRDS。 発生リージョンは東京。東京近郊4データセンター群の内、1つで発生。 日国内のAWSの契約先は数十万件とみられる。*

    AWS 東京リージョンで発生した大規模障害についてまとめてみた - piyolog
    kei_0000
    kei_0000 2019/08/24
    でかいシステムだと、色んな種類のサーバ、サービスを使ってて、冗長化もそれぞれに検討が必要。それで一箇所でもNGだったら、システムとして機能しなくなることが多いから大変。
  • 1