[B! 障害][AWS] chaxahcのブックマーク

chaxahc id:chaxahc

障害とAWSに関するchaxahcのブックマーク (2)

Slack、1月の大規模障害の原因を説明。「AWS Transit Gateway」がトラフィックの急上昇に対応できず、AWSはアルゴリズムを見直すと
Slack、1月の大規模障害の原因を説明。「AWS Transit Gateway」がトラフィックの急上昇に対応できず、AWSはアルゴリズムを見直すと AWSのネットワーク基盤の一部が飽和していた 1月4日、サービス内部のエラー率上昇によって始まったSlackの障害は、太平洋標準時の午前6時ごろからはSlackのWeb層の負荷が高まり、パケットロスを発生しはじめるなど徐々に深刻化。7時頃にはついにサービス停止にまで発展してしまいます。負荷の解消のためにWeb層をスケールアウトさせるなどの対処を行い、なんとかサービスが復旧し始めたころに、AWSから障害の引き金となった現象についての報告が次のようになされたとのこと。「Slack’s Outage on January 4th 2021」から引用します。 By the time Slack had recovered, engineers
chaxahc 2021/02/10
AWS

障害
リンク
EC2 インスタンスの障害調査依頼を受けた時に確認していること | DevelopersIO
記事を書こうと思ったきっかけサポートへの問い合わせで一番多いのが "EC2 インスタンスの障害調査依頼" だから「サーバはペットではなく畜牛のように扱え」というフレーズがあるように、クラウドではインフラがいつも変化するという前提でシステムを設計するのがよいとされています。そのため、EC2 インスタンスが障害でホストダウンしてもサービスが継続できるように設計されていればいいのですが、アプリケーションの要件や環境によっては単体の EC2 インスタンスで運用されることもあるようです。そのため、EC2 インスタンスの障害調査依頼をいただく際は緊急度が高い場合が多くあります。テクニカルサポートとして、私が障害調査依頼があった際に実施している内容を公開することで、迅速な障害の切り分けや復旧につながればと思い書きました。前提 EC2（Linux）を想定して書いています AWS マネジメントコンソ
chaxahc 2020/03/09
AWS

障害

あとで読む
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx