はじめに EXNOA プラットフォーム開発本部 プラットフォームインフラ部の角です。 近年、クラウドネイティブなシステム開発やモニタリングツールの充実によりモニタリングの考え方も変わりつつあると思います。 今回の投稿では、5つのプラクティスを通して より早く正確に障害を検知 より早く障害から復旧 するための取り組みを紹介します。 一部、「入門 監視 ―モダンなモニタリングのためのデザインパターン Mike Julian (著), 松浦 隼人 (翻訳)」に記載のプラクティスもありますが、私たちのチームでどのように実践しているかを紹介します。 なお、監視対象のシステムの概要は以下の記事をご覧ください。 inside.dmm.com 今回、紹介するプラクティスは以下のとおりです。 RED methodとUSE methodを使い分ける あらゆる情報を収集して可視化する 監視の設定を自動化する s