タグ

監視に関するmziyut112のブックマーク (5)

  • 「気付けない」「気付いても対処できない」障害をヤプリのSREグループはどう回避したのか

    障害は起きないに越したことはないが、残念ながらいつかは発生してしまうものだ。そのため監視で予兆を発見し、迅速に対処できる体制を構築することが重要になる。ただ、そこで懸念されるのは「構築した監視体制が適切かどうか」だ。 どのような監視でもサーバがシャットダウンする、サービスが落ちるといった非常事態を見逃すことはないだろう。しかし、「半年間でCPU使用率のアベレージが上昇している」といった微妙な変化は検知しにくい。気にしなくてもいいかもしれないが、もしかしたら重大な障害につながる予兆かもしれない。 Cloud Operator Days Tokyo 2022のセッション「顧客影響に気付けるアラート設計と原因特定が素早くできるSREへ ヤプリが乗り越えてきた監視運用の失敗と改善」では、そういった“監視の課題”に直面したヤプリと取り組みについて紹介した。 ヤプリのSREグループが直面した監視の課題

    「気付けない」「気付いても対処できない」障害をヤプリのSREグループはどう回避したのか
  • CloudWatch新機能増えすぎ問題。Synthetics? RUM? Evidently?? - Qiita

    AWSの監視機能群である「Amazon CloudWatch」。 基的なサービスですが、早くからクラウドを利用している人ほど監視はDatadogやNew Relicなどの専用ツールで… という方も多く、意外と新機能のアップデートを追えてない方も多いのでは?(自己紹介乙) この記事では、CloudWatchの中でも比較的新しいDEM三兄弟を特集します。 CloudWatch Synthetics CloudWatch RUM CloudWatch Evidently CloudWatchコンソールでいうとこの辺にあるやつです。 DEM(デジタルエクスペリエンスモニタリング)とは? AWSの「オブザーバビリティ」ページにDEMの紹介があります。 簡単にいうと利用者目線の監視と言えそうです。 デジタルエクスペリエンスモニタリング (DEM) は、エンドユーザーのブラウザ、モバイルアプリケーショ

    CloudWatch新機能増えすぎ問題。Synthetics? RUM? Evidently?? - Qiita
  • 全員野球からPagerDutyまで。NewsPicksのオンコール体制はどう進化してきたか。 - Uzabase for Engineers

    こんにちは!NewsPicksエンジニアの森川です。今回はNewsPicksのオンコール(=障害対応)体制の変遷と試行錯誤をご紹介したいと思います。 オンコール1.0 ~ 全員野球時代 ~ オンコール2.0 ~ 当番制時代 ~ 1. 専門外のアラートに対応できない 2. 対応するエラーの数が多すぎる 3. 勤務時間の自由度が減る 4. slackに気づけない オンコール3.0 ~ PagerDuty時代 ~ 1. アラートを緊急度で仕分け 2. 当番ローテーションの変更 3. PagerDutyの導入 おわりに オンコール1.0 ~ 全員野球時代 ~ NewsPicksにはエンジニア全員が入るslackチャンネルがあり、ここで周知事項の共有や雑談、問い合わせがされています。昔はこれに加え不具合の報告や監視システムからのアラート通知もこのチャンネルに流れるようになっており、アラート通知は気づ

    全員野球からPagerDutyまで。NewsPicksのオンコール体制はどう進化してきたか。 - Uzabase for Engineers
  • Datadogで深夜バッチの失敗アラートを営業時間に受け取る方法 - Classi開発者ブログ

    深夜の定期バッチの監視 Webサービスのオフピーク時に重たい処理を実行させるというのは一般的なプラクティスといえます。 特に深夜〜早朝は多くのサービスでバッチ処理を実行させているのではないでしょうか。 Webサービスだけではなく、当然バッチ処理も監視して失敗したらそれを発見し対処したいです。 しかし、失敗を発見しても即座にユーザ影響がないので対応は後でも良いという場合、素朴に監視ルールを作るとバッチが失敗した深夜・早朝にアラートが発報されることになります。 発報されたアラートを見て「これは今すぐに対応してなくても良いな」と判断するのであれば、それは狼少年アラートといえるのではないでしょうか。 悪貨が良貨を駆逐すると言われるように、狼少年アラートがはびこれば良貨のアラートもいずれ無視されるようになってしまうことは容易に想像できます。 Datadogの timeshift 関数でアラートの発報

    Datadogで深夜バッチの失敗アラートを営業時間に受け取る方法 - Classi開発者ブログ
  • オンコールアラートアンチパターン - ださろぐ@はてな

    オンコールアラートを設定しようと考えた際に考慮すべき点を自分なりにアンチパターンとしてまとめたなにかです。 ホワイトボックスモニタリングにより得られたメトリクス、ログなどからアラーティングを行う、または併用する環境を想定しています、ブラックボックスモニタリングによるアラート、SLOベースのアラートのみでうまく運用されているサービスにはあてはまらないと考えてます。 参考書籍は色々あり、最後に記載していますが提示されてるプラクティス通りではないものもあります 。自組織、システムにあった設計をしましょう。 システムの監視がまったくありませんみたいな状況であればまずはサービスのURLに対する外形監視からはじめましょう。 言葉の定義 アンチパターン サービスに対する外形監視が設定されていない アラートを受け取って直ちに何かアクションを行う必要がない アラートに対応するrunbookが存在しない 自動

    オンコールアラートアンチパターン - ださろぐ@はてな
  • 1