こんにちは。 Necoチームの梅澤です。 従前、Neco ではクラスタのモニタリングに Prometheus を利用していましたが、最近これを VictoriaMetrics + VictoriaMetrics operator に変更しました。 本記事では、Prometheus で感じていた問題点と、それをどのように解決したかを紹介します。 感じていた問題点 我々が(オペレーターを利用しない) Prometheus で問題を感じていたのは以下の点になります。 メトリクスの長期保存 Neco では元々14日間ぶんを保存していました。しかし、過去のメトリクスは障害の継続的な調査にも有用であり、14日間では物足りなく感じていました。一方、 Prometheus はストレージの構造として長期保存をあまり想定していません。 https://prometheus.io/docs/prometheus
![VictoriaMetrics と Grafana による Kubernetes クラスタのモニタリング - Cybozu Inside Out | サイボウズエンジニアのブログ](https://cdn-ak-scissors.b.st-hatena.com/image/square/13e9850e6eff82e62fba6aad156afd62b6ae4fa1/height=288;version=1;width=512/https%3A%2F%2Fcdn-ak.f.st-hatena.com%2Fimages%2Ffotolife%2Fc%2Fcybozuinsideout%2F20210316%2F20210316190705.png)