Z Lab では様々なシステムの監視に Prometheus を使用しています。Prometheus からのアラート通知には Alertmanager を使用していますが、障害対応などをしていくうちに、チーム内で以下のような不満が出てきました。 アラートの履歴が時間が経つとで消えてしまい、何が起きていたのか分かりにくい どのアラートが多く発生しているかなどの集計がしにくい アラートの情報をもとに GitHub に Issue を簡単に作成したい そこで、Alertmanager の機能についてもう少し詳しく調べてみたところ、そもそも Alertmanager はアラートの通知に特化した設計になっており、永続的にアラートの情報を管理する場合は、Webhook による通知機能を利用して別のシステムにアラート情報を転送して管理するのが良いことが分かりました。 新たにアラート情報を収集して管理する