タグ

監視とawsに関するthaimのブックマーク (2)

  • 入社したらAWSコンソールにCloudWatchアラームが1000個以上あったので整理してる話 - Uzabase for Engineers

    こんにちはNewsPicks SREチームの飯野です。 今年の1月入社の新入社員です。そろそろお仕事に慣れてきました。今回は研修と研修の合間に地道に行っていたCloudWatchアラームの整理について話していきたいと思います。ちょっと長くなりますがお付き合いください。 よくわからないしアラームを整理しよう まずはスプレッドシートで一覧してみよう 整理の方針を決めよう さまざまな問題をかかえたアラームたち Case#1 AlarmActionが未設定のアラーム(5個) Case#2 ActionのSNSトピックが存在しないアラーム(16個) Actionを差し替えるのはちょっと手間 Case#3 ActionのSNSトピックの通知先が退職した社員のメールアドレス(97個) Case#4 監視先のDynamoDBのテーブルがすでに存在しないアラーム(97個中の85個) Case#5 監視先のE

    入社したらAWSコンソールにCloudWatchアラームが1000個以上あったので整理してる話 - Uzabase for Engineers
  • AWS ECS & TerraformによるSansanの統合監視運用とその仕組み - Sansan Tech Blog

    はじめに IcingaとMunin Zabbixへの移行 環境構築 Zabbixの監視内容 監視のリリース方法 リソース配分 バージョンの固定化 監視システムにおけるツラミ Zabbixの独自仕様に消耗する Zabbixの仕様にインフラ構成を追従している リリース手順の複雑化 サービスの成長に合わせたサイジングやチューニング おわりに はじめに Sansan株式会社プロダクト開発部インフラチームの岡です。 事業欲求に応じ優先度と軽重が決められたタスクに向き合いつつ、チームへの依頼事項に対し日々柔軟に対応するよう努めています。 また、Sansanサービス全般のインフラ運用・保守を行いつつも、併せて運用業務の撲滅に取り組んでいます。 今回は、Sansanサービスにおける監視ツールの導入経緯からインフラ構成、監視の設計方針、リリース方法、構成におけるツラミ等をお伝えできればと思います。 I

    AWS ECS & TerraformによるSansanの統合監視運用とその仕組み - Sansan Tech Blog
    thaim
    thaim 2020/07/21
    この規模・監視要件でやっとzabbix導入がペイするということか.個々の設計はTerraform/コンテナで管理できても全体設計の管理が課題かな.
  • 1