背景 GMOペパボでは、社内チャットとして Slack を、サーバリソースの監視やアラートにMackerel を利用しています。 また、最近はログ集約、解析の基盤として Treasure Data の利用も増えてきました。 Slack 導入以前から、IRC をヘビーに利用していたこともあり、chat-ops 文化はあったのですが、通知や bot があたかも自律的に連携しているかのような、ピタゴラスイッチ的な仕組みはあまりありませんでした。(そして、私はそういう仕組みを作るのがすごく楽しい!) ですので、今回、試験的にそういった仕組みを作って導入してみました。(今日から!) 障害検知からの初動 今携わっているサービスでの障害検知は、おおざっぱに書くと次のようになっています。 Mackerel からアラートが Slack にくる bot に実装されてる外形監視コマンドを発行する 問題がありそう