[B! 障害][aws] negima1976のブックマーク

2023年12月5日に発生した複数AWSアカウントが操作不能となった障害について | クラスメソッド株式会社

クラスメソッドのAWS総合支援コスト最適化からセキュリティ、構築支援、運用保守まで、AWS活用を支援します。

negima1976 2023/12/07

aws
障害

リンク

9月2日木曜日に発生したAWS東京リージョンの大規模障害、原因はネットワークデバイスの新プロトコル処理に潜在的なバグがあったこと。AWSが報告書を公開

9月2日木曜日に発生したAWS東京リージョンの大規模障害、原因はネットワークデバイスの新プロトコル処理に潜在的なバグがあったこと。AWSが報告書を公開 2021年9月2日木曜日午前7時半ごろに、Amazon Web Services（AWS）の東京リージョンで大規模な障害が発生しました。 NHKニュースの報道によると、三菱UFJ銀行やみずほ銀行のスマートフォン用アプリやSBI証券などネット証券のWebサイト、KDDIのau Payなど金融系サービスが影響を受けたほか、全日空では羽田空港などでチェックインを行うシステムに障害が発生、日本航空では貨物の情報に関わる一部のシステムに影響が出るなど、幅広い社会サービスが影響を受け、大きな問題となりました。障害が発生したのは、企業のデータセンターなどからAWSへ専用線で接続するためのネットワーク接続サービス「AWS Direct Connect」。

negima1976 2021/09/08

aws
障害

リンク

リージョン規模の障害が発生した時に Service Health Dashboard から障害情報の通知を受け取る方法 | DevelopersIO

困っていた内容 Personal Health Dashboard と CloudWatch Events を連携させてイベント通知設定を行いましたが、アカウント固有のイベントしか受け取れませんでした。 Service Health Dashboard (SHD) に記載されるリージョン規模の障害情報を受け取る方法について教えてください。どう対応すればいいの？ Personal Health Dashboard と CloudWatch Events の連携ではリージョン規模の障害情報が送信されません。そのため、AWS が提供しているサービスヘルスダッシュボード通知ツールの利用をご検討ください。 SHD通知ツールではポーリングアプローチが採用されているため、SHD の障害情報が更新されるたびに SNS トピックや Chime、 Slack へイベント情報を送信させることが可能です。以

negima1976 2021/04/27

リンク

AWS、わざとクラウド障害を起こす新サービス「AWS Fault Injection Simulator」提供開始。カオスエンジニアリングをマネージドサービスで

AWS、わざとクラウド障害を起こす新サービス「AWS Fault Injection Simulator」提供開始。カオスエンジニアリングをマネージドサービスで Amazon Web Services（AWS）は、わざとクラウドの障害を起こすことでアプリケーションの耐障害性を検証できる新サービス「AWS Fault Injection Simulator」の提供を開始したと発表しました。 AWS Fault Injection Simulatorを用いることで、サーバの終了や遅延、データベース障害といった望みの障害を、あらかじめ定められたテンプレートを用いて迅速に設定し、管理しつつ実行できます。これにより、クラウド上で稼働しているアプリケーションが、フェイルオーバーや自動ロールバック、自動停止といった障害発生時の処理を適切に行えるかどうかを試験できます。アプリケーションの耐障害性などを

negima1976 2021/03/17

リンク

［速報］AWS、クラウド障害をわざと起こす「AWS Fault Injection Simulator」発表。カオスエンジニアリングをマネージドサービスで実現。AWS re:Invent 2020

Amazon Web Services（AWS）は、開催中のオンラインイベント「AWS re:Invent 2020」で、アプリケーションに対してクラウド障害のシミュレーションを行える新サービス「AWS Fault Injection Simulator」を発表しました。クラウド上で稼働するアプリケーションの耐障害性などを高めるために実際にクラウド障害をわざと発生させて問題点をあぶりだす手法は、「Chaos Enginieering（カオスエンジニアリング）」と呼ばれています。 Netflixが2012年にカオスエンジニアリングのためのツール「Chaos Monkey」を公開したことで広く知られるようになりました。参考：サービス障害を起こさないために、障害を起こし続ける。逆転の発想のツールChaos Monkeyを、Netflixがオープンソースで公開今回発表された「AWS Faul

negima1976 2020/12/16

リンク

AWS障害、“マルチAZ”なら大丈夫だったのか？　インフラエンジニアたちはどう捉えたか、生の声で分かった「実情」

AWS障害、“マルチAZ”なら大丈夫だったのか？　インフラエンジニアたちはどう捉えたか、生の声で分かった「実情」（1/3 ページ） 8月23日に起きたクラウドサービス「AWS」（Amazon Web Services）の東京リージョンでの障害は、国内のさまざまなサービスに影響を及ぼした。 AWSが同日午後8時ごろに復旧するまで、モバイル決済サービス「PayPay」や、仮想通貨取引所「Zaif」、オンラインゲーム「アズールレーン」などで利用できない、もしくは利用しづらい状況が続いた。PCショップの「ドスパラ」はECサイトの不具合が長引き、翌日の24日には実店舗を臨時休業して対応に当たっていた。 AWSという1つのサービス障害が起きただけで、多くの企業やサービスに影響を及ぼしたため、「クラウドサービスはもろい」という論調も散見された。しかし、インフラエンジニアたちからは違う意見が聞こえてくる

negima1976 2019/08/29

リンク

AWS、東京リージョン23日午後の大規模障害について詳細を報告。冷却システムにバグ、フェイルセーフに失敗、手動操作に切り替えるも反応せず

AWS、東京リージョン23日午後の大規模障害について詳細を報告。冷却システムにバグ、フェイルセーフに失敗、手動操作に切り替えるも反応せず報告によると直接の原因は東京リージョンのデータセンターで使用されている冷却制御システムにバグがあったこと。これにより、緊急時の手動操作にも冷却制御システムの一部が反応しないなどでサーバが過熱し、障害に至ったと説明されています。 8月23日午後に約6時間の障害。EC2だけでなくRDSも報告によると、障害は日本時間2019年8月23日金曜日の昼過ぎに発生。影響範囲は仮想マシンを提供するAmazon EC2とブロックストレージを提供するAmazon EBSのそれぞれ一部。以下、AWSの報告を引用します。日本時間 2019年8月23日 12:36 より、東京リージョン (AP-NORTHEAST-1) の単一のアベイラビリティゾーンで、オーバーヒートにより一

negima1976 2019/08/26

aws
障害

リンク

8月23日のAWSの大規模障害でMultiAZでもALB（ELB）が特定条件で500エラーを返すことがあったという話 - Make組ブログ

このブログ記事で「MultiAZ」にしていたら何事も全て大丈夫という認識を変えられると嬉しいです（当該の時点で障害起こした人はちゃんとMultiAZにしてなかったんでしょ？という人の認識も変えられると嬉しいです）。 MultiAZにしておくことは基本です。その上でも、安心しきらずに監視は必要という話をしています。 MultiAZ構成にしておきましょうそのうえで監視、検知、トレーサビリティを大切にしましょう MultiAZ要らないという見当外れの解釈はしないでください（一部、間違えた解釈をしてるコメントも見受けられましたが、大いに違います）。前提 2019-08-23、AWSで大規模な障害が起こりました。障害の一般的な内容は以下のとおりです。まとめのブログ https://piyolog.hatenadiary.jp/entry/2019/08/23/174801 AW

negima1976 2019/08/24

aws
障害

リンク

AWS 東京リージョンで発生した大規模障害についてまとめてみた - piyolog

2019年8月23日 13時頃からAmazon AWS 東京リージョンでシステム障害が発生し、EC2インスタンスに接続できない等の影響が発生しています。ここでは関連する情報をまとめます。 AWSの障害報告 aws.amazon.com AWS障害の状況障害発生時間（EC２）約６時間 2019年8月23日 12時36分頃～18時30分頃（大部分の復旧）障害発生時間（RDS）約９時間半 2019年8月23日 12時36分頃～22時5分頃障害原因（EC２）一部EC2サーバーのオーバーヒートによる停止制御システム障害により冷却システムが故障したことに起因影響範囲東京リージョン（AP-NORTHEAST-1）の単一のAZに存在する一部EC2、EBS、およびRDS。発生リージョンは東京。東京近郊４データセンター群の内、1つで発生。日本国内のAWSの契約先は数十万件とみられる。*

negima1976 2019/08/24

aws
障害

リンク

「サル軍団」にシステム障害を起こさせる、Netflixの驚異的なトラブル撲滅法

Netflixは、わざと本番障害を起こしてすぐ復旧させることを繰り返し、本当の障害発生に備える、という驚くべき手法「カオスエンジニアリング」を実践している。その効果は実証されている。Netflixが全面的に採用しているAmazon Web Services（AWS）で、2017年2月に中核施設の一つ、米バージニア北部リージョン（広域データセンター群）にて大規模障害が起きたとき、別のリージョンに速やかに切り替えたという。 Netflixの先進的な取り組みを紹介するこの特集の最後に、カオスエンジニアリングを取り上げる。

negima1976 2018/01/17

リンク

はてなブックマーク

タグ

関連タグで絞り込む (5)

障害とawsに関するnegima1976のブックマーク (10)

お知らせ

今週のはてなブックマーク数ランキング（2024年8月第1週）

月間はてなブックマーク数ランキング（2024年7月）

今週のはてなブックマーク数ランキング（2024年7月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス