タグ

monitoringとawsに関するnekoruriのブックマーク (2)

  • 本当にサービスの運用できてますか!?運用監視を学べるAWS Observability Workshopを開催しました!

    当にサービスの運用できてますか!?運用監視を学べるAWS Observability Workshopを開催しました! 技術部 サービスリライアビリティグループ(SRG)の柘植(@shotaTsuge)です。 #SRG(Service Reliability Group)は、主に弊社メディアサービスのインフラ周りを横断的にサポートしており、既存サービスの改善や新規立ち上げ、OSS貢献などを行っているグループです。 記事は、サイバーエージェントグループと他複数社向けに特別開催したAWS Observability Workshopの開催レポートになります。記事を通して、運用とは何なのかを改めて考えるきっかけとなれば幸いです。 Day1 Day1では、「サービスを動かし続けるために何が必要か」というタイトルで、 運用とは何なのか Amazonでの運用例 AWS環境では、どのように運用す

    本当にサービスの運用できてますか!?運用監視を学べるAWS Observability Workshopを開催しました!
  • FBZにおけるサーバーレス監視で実施したアラート通知の最適化 - ZOZO TECH BLOG

    はじめに こんにちは。BtoB開発チームの中島です。Fulfillment by ZOZO(以下、FBZ)で提供しているAPIシステムの開発・運用を担当しています。 FBZの運用では、エラーログ発生時にアラートを通知させ、エラー内容をチェックして対応要否を判断しています。しかし、アラート通知が多すぎると運用負荷が高くなったり、重要なアラートを見落とすリスクもあるため、適切な量で通知することが重要になってきます。 記事では、FBZで実施した例を紹介しながらアラート通知の最適化について解説します。 FBZにおけるサービス監視 FBZでは、ログ解析によるサービス監視を実施しています。 AWS Lambda(以下、Lambda)から出力されたログを解析し、外部サービスのPagerDutyやDatadogに連携して監視しています。必要に応じてフィルタリングを行い、ログの通知量を都度調整しながら運用

    FBZにおけるサーバーレス監視で実施したアラート通知の最適化 - ZOZO TECH BLOG
    nekoruri
    nekoruri 2021/03/04
    良い分析事例。自動復旧できたものは分析のため記録するだけでアラート発報してはいけないんだよね。そして頻度に応じてエスカレーション。
  • 1