2019年2月26日のブックマーク (1件)

  • SRE はサービス品質に影響しない程度の異常をどう扱うべきか? - 無印吉澤

    今回の記事は、最近考えていたことのメモです。 ここ最近いろいろ考えていたのですが行き詰まってきたので、とりあえず課題意識を説明する文章だけ書いてみました。結論はまだありません。 障害と異常の定義 話の前に、障害(failure)および異常(anomaly)という単語を定義しておきます。人によって定義は違うと思いますが、自分が文章を書くときは以下のように区別しています。 障害:サービスの停止や、サービス品質の深刻な劣化を引き起こすようなインシデント 異常:サービスに対する深刻な問題は引き起こさないが、通常は起こらないはずのインシデント この定義をもう少し詳しく説明するために、例として、ロードバランサと、その背後に5台のアプリケーションサーバがあるシステムを考えます。 これらのサーバが5台ともダウンしたり、半数を超える3台がダウンして応答時間が極端に長くなった(例えば10秒以上になった)場合は

    SRE はサービス品質に影響しない程度の異常をどう扱うべきか? - 無印吉澤
    igagurimk2
    igagurimk2 2019/02/26
    想定される障害の規模がSLOを超えないなら、それにつながるような異常に対して処置する必要はない。 そもそも異常が発生しているのは当然というのがエラーバジェットの概念の核。