タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

運用と監視に関するnabeopのブックマーク (1)

  • PagerDutyでアラート管理を改善した話 - Tech Inside Drecom

    はじめに こんにちは。インフラストラクチャー部のひらしーです。 今回はPagerDutyを導入し、システムに異常が発生した際のアラート管理を改善した話を紹介します。 アラート管理改善前 解決すべき人へのエスカレーションが必要な問題発生時、以前は以下のような問題がありました。 通知手段がメールのみで、インフラチームのメンバーは全サービスのアラートを受け取って自分でフィルタリング・転送をする必要があり、問題のエスカレーション漏れや監視設定自体の見直しがされずに監視精度のばらつきが発生していた過去のアラート情報が集約できておらず、問題の傾向把握や類似の障害の検索が困難だった PagerDutyについて 上記の問題を解決するため、メール運用のまま手法のみ改善する運用や内製ツールの開発を検討しましたがトライアルでチーム内での評価が高かったためSaaSのアラート管理ツールであるPagerDutyを採用

    PagerDutyでアラート管理を改善した話 - Tech Inside Drecom
  • 1