Datadog のブログで公開されている "Monitoring 101: Collecting the right data" を読んだ。本記事は紹介した Datadog のブログ記事を独自に簡略化したものである。もっと詳しく知りたい場合は Datadog の記事を読むと良い。 記事では次の項目を実現するためにどんなデータを収集し分類するかが記載されている。 自動検知によって潜在的な問題に効果的なアラートを受信する。 素早く調査を行いパフォーマンスに関する原因へ到達する。 Metrics メトリクスはある時点のシステムに関連する値を取得する。通常 1 秒間に 1 回もしくは 1 分間に 1 回など時間の経過とともに監視する。 メトリクスを以下の 2 つのとても大切なカテゴリに分けられる。 Work metrics システムのトップレベルでの health 状態を表せられるメトリクスを指す