監視を Zabbix から Mackerel に移行しています。そこで困ったことを OSS を書いて解決しようシリーズのお時間です。 ホストのダウン検知を早くしたい Mackerel の監視は Push 型と呼ばれるもので、mackerel-agent が Mackerel サーバに対してメトリクスを送信する形態です。そのため、agent を稼働させているホストがダウンしたという事象は、「一定時間サーバに対して情報が送られてこない」ことによって、組み込みのアラート "connectivity" として検知されます。 これによって困ることとしては、以下があります。 ホストが実際にダウンしてから7分程度経過しないとアラートが上がらない あまり短時間で判断してしまうと誤検知が増えるからでしょうか もうちょっと早く検知したいです "connectivity" アラートは Critical レベルし