https://sre-lounge.connpass.com/event/227250/
※この投稿は米国時間 2020 年 6 月 23 日に、Google Cloud blog に投稿されたものの抄訳です。 サイト信頼性エンジニアリング(SRE)の仕事を始めたとします。サービスを開設しました。ユーザーがこのサービスをどのように利用するかについてすでに分析していたので、ユーザーの満足度と相互に関連する主な指標を策定できました。サービスレベル目標を設定したので、エラー バジェットも指定したことになります。よくできました。 次に検討すべきことは、サービスを停止させるメンテナンスの時間枠のスケジュールを管理することです。このダウンタイムをエラー バジェットの対象とする必要があるでしょうか。分析してみましょう。 簡単に言うと、エラー バジェットは、ユーザーが不満を感じ始めるまでの一定の期間にサービスで累積できるエラーの量です。これをユーザーの忍耐度と考えることができますが、可用性やレ
Merpay Advent Calendar 2019 の14日目は、メルペイSREチームの@Tがお送りします。 本記事では、メルペイSREチームのSLO運用状況について、紹介いたします。 メルペイリリース前 去年のAdventCalendar 2018で、メルカリのWeb MicroservicesにおけるSLI/SLOについて紹介がありました。 メルペイでは新規のMicroserviceをリリースする前に、各MicroserviceチームがSLOを定義し、品質保持の一指標を決めるルールがあります。 メルペイSREチームでは、Microserviceチームと一緒にSLOを考え、各MicroserviceにSLOを定義していますが、一からSLOを定義するのはとても難しいです。 幸いなことにGoogle社からSLOの説明や定義方法などSREに関する素晴らしい記事がたくさん共有されており、SL
これは SRE Advent Calendar 11日目の記事です。 こんにちは、Backlog の SRE を担当している吉澤(Muzi と呼ばれている人)です。 本記事では、SRE Lounge #5 で講演した際に、時間の都合で省略した「ヌーラボ社内での Backlog のサービスレベル計測とその結果の活用」についてご紹介します。 長年運用されてきたサービスを改善するために、SRE ができる取り組みの一例としてご参考ください。 SRE とは? SRE とは、Site Reliability Engineering の略です。これは Google で初めて提唱された概念で、その提唱者自身は著書「SRE サイトリライアビリティエンジニアリング」(いわゆる「SRE 本」)のなかで以下のように述べています。 Google 内で規定されることになったサイトリライアビリティエンジニアリングとは、
Performance analysis and tuning is a powerful technique to verify if client focused performance requirements are being met. Performance analysis can be used to characterize where a program is spending its time and supports a scientific approach to testing the efficacy of tuning experiments. This post defines a general approach for performance analysis and tuning using a go HTTP service as an examp
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く