2024年2月14日のブックマーク (1件)

  • グレー障害について理解を深める Detecting and mitigating gray failures #ARC310 #AWSreInvent | DevelopersIO

    ここでの障害発生箇所の「インスタンス内部」とは、アプリケーションの動作に必要なプロセスの障害などを指します。インスタンスそのものは正常稼働している状態です。 #1 の場合、ELBのヘルスチェックに失敗し、インスタンスはルーティングの対象外になります。EC2 インスタンスの置き換えは発生しないため、不要なインスタンスが残り続けることになります。 #2 の場合、ELB のヘルスチェックの失敗を契機に Auto Scaling Group によるインスタンスの置き換えが発生します。このケースにおいては、望ましい状態です。 #3,#4のように障害が発生箇所が「依存関係との接続」の場合、シャローヘルスチェックによって検出されません。ELB は引き続きインスタンスにトラフィックをルーティングするため、グレー障害が発生します。 #3,4 のケースへの対策として、ディープヘルスチェックを導入することを考え

    グレー障害について理解を深める Detecting and mitigating gray failures #ARC310 #AWSreInvent | DevelopersIO
    batchi
    batchi 2024/02/14
    シャローヘルスチェックという表現を初めて知りました