環境 Consul Server(0.5.2) x 3 Consul Agent(0.5.2) x 数十台 現象 とある日、プロダクトのConsulクラスタ管理下のサーバがちょいちょいアラート出すので Consulログを確認するとノードが数分間隔で EventMemberFailed と EventMemberJoin を繰り返していた。 特に特定のノード、というわけでもなく、ランダムにノードがFailし、数十秒後にJoinし直す、というログがひっきりなしに出力されていた。 「consul flapping」でぐぐってみると、いくつか同じような現象で悩んでいる事案があるようだった。 原因となったサーバ ほぼ全てのノードがflapping状態だったので原因つかめず途方に暮れていたが、この投稿 で のfromのサーバを見るといいよ、とあったのでgrepしてみるとビンゴ。 そのサーバにログインし