タグ

障害とAWSに関するlocke-009のブックマーク (5)

  • 【AWS】障害時の調査事項まとめ ~ELB・ECS・RDS~ - Qiita

    はじめに 現在はAWSで構築されたシステムの運用保守業務に携わっており、その一環として障害調査を行うことが多々あります。 少しは経験値が上がったため、障害が発生した際に初動で確認する事項をまとめてみました。 インフラ基盤観点で障害調査を行うさいの参考になれば幸いです。 前提条件 当システムの構成は以下となっているため、それに即した調査項目となっています。 ALB/NLB・ECS・RDSを利用している ECSはEC2上で実行している(Fargateでは利用していない) ECSクラスター(以下クラスター)の自動スケーリング設定をしている ECS サービス(以下サービス)の自動スケーリング設定をしている RDSはAuroraを利用している また、障害は予期せぬコンテナの停止を想定しています。 NLB/ALBの調査事項 メトリクス 初めにロードバランサーのメトリクスからターゲットの状態を確認します

    【AWS】障害時の調査事項まとめ ~ELB・ECS・RDS~ - Qiita
  • AWSで障害に強いシステムを構築する方法 - Qiita

    はじめに 2011年の東日大震災、これから来ると言われる南海トラフ地震などの大規模な災害や事故に備えるために、災害復旧(DR)が可能なシステムと、その実現手段としてAWSを始めとしたクラウドが長年注目されています。 このDRに関連して、近年「レジリエンス」という言葉が注目を集めるようになりました。 レジリエンスとは、回復力、復元力、弾力などの意味を持つ英単語IT分野では、情報システムがシステム障害や災害、サイバー攻撃などの問題に直面したとき、迅速に被害からの回復を図り正常な状態に復旧・復元する能力(の大きさ)をこのように呼ぶ。 https://e-words.jp/w/%E3%83%AC%E3%82%B8%E3%83%AA%E3%82%A8%E3%83%B3%E3%82%B9.html AWSでは、2019年8月に大規模障害が発生したことがあり、この時もAZ障害が起きた時に取り得る対策

    AWSで障害に強いシステムを構築する方法 - Qiita
  • AWSが落ちてもGCPに逃がすことで落ちないシステムを作る技術

    こんにちは、エンジニアのtarr [https://github.com/tarr1124]です。 KARTE Blocksは既存のサイトにタグを一行入れるだけで、そのサイトを簡単に書き換えたり、ABテストなどで最適化したりできます。 これは、サイトを読み込むときにタグによってBlocks内で設定された内容を反映させているのですが、既存のサイトの挙動に手を加えている以上、一定のリスクが存在します

    AWSが落ちてもGCPに逃がすことで落ちないシステムを作る技術
  • 今までに起こった AWS 障害情報履歴

    今までに起こった AWS 障害情報履歴 AWSに過去どのくらい障害が発生したかを調べる必要がでたので、AWSが公表している公式の情報がないかを探してみるも、公式情報が全然見当たらない・・・。 仕方ないので、AWSサポートに問い合わせてAWSエンジニアの方へ電話で確認するも、AWSとしては過去の障害についてまとめて公表をしていないとの事でした。 SLAのからみなどから、きっと正式に公表がむずかしいのかもですね。 ということで、AWS公式情報がないので非公式情報ではありますが、ネットで確認調べる限りの情報をまとめてみました。 AWSは全世界にリージョンがありますが、日のリージョン(東京と大阪)に絞って記載します。 2021年02月19日(金) az1障害発生 障害発生時間 :約6時間 (2/19 23時 ~ 2/20 5時) 影響範囲   :az1 のEC2、EBS 原因     :セクショ

    今までに起こった AWS 障害情報履歴
  • AWS、クラウド障害をわざと起こす「AWS Fault Injection Simulator」発表 カオスエンジニアリングをマネージドサービスで

    この記事は新野淳一氏のブログ「Publickey」に掲載された「[速報]AWS、クラウド障害をわざと起こす「AWS Fault Injection Simulator」発表。カオスエンジニアリングをマネージドサービスで実現。AWS re:Invent 2020」(2020年12月16日掲載)を、ITmedia NEWS編集部で一部編集し、転載したものです。 米Amazon Web Services(AWS)はこのほど、開催中のオンラインイベント「AWS re:Invent 2020」で、アプリケーションに対してクラウド障害のシミュレーションを行える新サービス「AWS Fault Injection Simulator」を発表しました。 クラウド上で稼働するアプリケーションの耐障害性などを高めるために実際にクラウド障害をわざと発生させて問題点をあぶりだす手法は、「Chaos Enginiee

    AWS、クラウド障害をわざと起こす「AWS Fault Injection Simulator」発表 カオスエンジニアリングをマネージドサービスで
  • 1