はじめに GCE上のプロセスをStackdriverで監視していて、プロセスが落ちたらSlackにアラートを飛ばす・・・・ ちゃうねん!アラートが飛ばすことが目的じゃなくて、サービスをいち早く復旧させるのが目的やねん! どうせAlert飛んだあとにやることは、systemctl status XXXXXでステータス確認して、sudo systemctl start XXXXXをするだけじゃん。 ということで、Stackdriver+Gitlab-CI+Ansibleを連携させて、アラートを飛ばすだけじゃなく、サービスを復旧させる仕組みを構築してみようと思う。 チームのメンバーがSlack botでもいい感じに自動復旧の仕組みを作ってる記事があるので、Slack botでやりたいんだよ!俺は!っていう人は↓を参考にすると幸せになれる。 Stackdriverとslackbotでサービス自動復