タグ

sloに関するjinjin252525のブックマーク (7)

  • SLI/SLOを策定し、New Relicで可視化する - dip Engineer Blog

    記事はNew Relic Advent Calendar 2023の25日目の記事となります。 qiita.com はじめに こんにちは。はたらこねっとのユーザー向けサイトのバックエンドエンジニアをしている大塚です。 はたらこねっとではサービスのモニタリングなどにNew Relicを活用しています。 New Relic にはアプリケーションのモニタリング以外にも様々な機能が用意されています。 その中でも「Service Levels」の機能を使ったSLI/SLOの策定と設定を行っているので、そちらについてご紹介させて頂きます。 なお、細かい操作方法などは記事では触れません。 記事で登場する用語について クリティカル ユーザー ジャーニー(CUJ) ユーザーがサービスを利用する際の重要な経路やプロセスを表したものです。 サービスレベル指標(SLI) サービスレベルを測定するための具体的

    SLI/SLOを策定し、New Relicで可視化する - dip Engineer Blog
  • ZOZOMAT/ZOZOGLASSにおけるSLOの立て直しについて - ZOZO TECH BLOG

    はじめに こんにちは、計測プラットフォーム開発部SREブロックの近藤です。普段はZOZOMATやZOZOGLASS、ZOZOFITなどの計測技術に関わるプロダクトの開発、運用に携わっています。計測プラットフォーム開発部では、以前プロダクト単位でSLO(Service Level Objective)1を定めましたが、うまく活用できず、再度SLOについて運用方法を考え直すことになりました。記事では、SLOの再導入から運用に向かう中で見つかった課題と、課題に対する対応策についてご紹介します。 目次 はじめに 目次 背景 要因分析 Problem Try Action Actionの実行 SLO設定時の段階分け 例:ZOZOMATの段階分け 課題の洗い出し 例:SLOがない事による課題(SRE視点) 目的の明確化 信頼性とはそもそも何か 一般的な信頼性 計測プロダクト UJの整理 SLOの

    ZOZOMAT/ZOZOGLASSにおけるSLOの立て直しについて - ZOZO TECH BLOG
  • SLOをもっとカジュアルに活用しよう

    はじめに こんにちは。Google Cloudでオブザーバビリティの担当をしているものです。 昨日、シンガポールで開催されたスタートアップ向けのイベントにリモート登壇したのですが、そこでスタートアップでもSLOを活用しましょう、というテーマで話しました。 せっかくなので日語にしておこうと思い、スライドを抜粋しながら内容の一部を記事にしておこうと思います。発表内容を記事化してるので、文体が少し発表のようになっているのはご容赦ください。 「ユーザーからの信頼性」が大切 まず、スタートアップ、さらにはWebサービスに限らず、あらゆる事業において、顧客に対する信頼は重要です。荷物が全然届かない配送業者は利用したくないですし、接続してもつながらないISPは契約したくありません。飛行機も統計上事故の確率が低いから利用するわけで、自動車並に事故が発生していたら絶対利用しません。日々私たちがさまざまなサ

    SLOをもっとカジュアルに活用しよう
  • https://newrelic.com/sites/default/files/2022-02/NRU303_SLISLO_20220222.pdf

  • これからはじめる 実践SRE / SLO の監視をやってみよう

    SRE がアツいですね。 昨年は以前に増して SRE 関連のイベントも増え、SRE 人材への注目も更に高まっていると感じた 1 年でした。私も Google Cloud の Customer Engineer として、お客様へ SRE のお話をする機会が増えてきています。 ご存知の通り、SRE は Google から生まれた運用プラクティス、またはそのロール自体を指す言葉です。 詳細は無料で読むことができる書籍を御覧ください。 “Site Reliability Engineering” 及び “The Site Reliability Workbook” (右上の右2つ)は HTML 形式 なので、Google Chrome で右クリックして 翻訳を選択するという簡単な手順で日語でも読むことができます。(書籍がよい方は日語版も購入できます。) 今回のテーマは SLO (Service

    これからはじめる 実践SRE / SLO の監視をやってみよう
  • AIOps研究録―SREのためのシステム障害の自動原因診断

    5/14 12:30 - 13:15 How We Foster "Reliability" in DiversitySRE において「信頼性」は最も重要な指標とされています。しかし、一言で「信頼性」といっても、会社の戦略やサービス、文化によって、計測方法や目指す値、その達成方法にいたる全てが同じになることはないでしょう。さらに、一度定義した信頼性が適切であり続けることはなく、会社や組織のフェーズによって、その時々で柔軟に変化していく必要がありそうです。 このように、サービスを取り巻く環境の変化に応じて適切な信頼性を定義し、またその信頼性を「育てて」いく方法として、サービスや組織の戦略と SRE チーム の方向性を揃えたり、SRE チームの垣根を超えて組織全体に SRE の文化を根付かせるための取り組みなどを紹介しながら、多様性とともに SRE がどのように歩んでいくかについてお話します。

  • サービスレベル指標(SLI)を選択する  |  Cloud アーキテクチャ センター  |  Google Cloud

    デジタル トランスフォーメーションを加速 お客様がデジタル トランスフォーメーションに乗り出したばかりでも、あるいはすでに進めている場合でも、Google Cloud は困難な課題の解決を支援します。

    サービスレベル指標(SLI)を選択する  |  Cloud アーキテクチャ センター  |  Google Cloud
  • 1