本番環境でやらかしちゃった人 Advent Calendar 2020 14日目 の記事です。 稀によくあるアラートで始まる朝 ある日の朝、いくつかあるマイクロサービスの内の一つが稀によくある一部のメトリクスが取れてない趣旨のアラートが大量に飛んでいた形跡を発見した。 この稀によくあるアラートの原因として考えられるのは、一部のサーバーの調子悪いか、監視サービスが不調のどちらかだった。 ここで簡単にサービスの構成を説明しよう。 よくあるロードバランサーにいくつかのインスタンスがぶら下がってる系のもので、負荷が高まったらスケールアウトして、負荷が低くなればスケールインするいい感じのやつ。某AWSではオートスケーリンググループと呼ばれるもの。 インスタンスは使い捨て可能で、サーバーが不調になれば、自動でいい感じに殺すため、大体アラートが出ていても、朝起きた時には直ってることが多い。 加えて早朝に
![ペイ・ガガーリン「コンソールは白かった」](https://cdn-ak-scissors.b.st-hatena.com/image/square/1691e6c8fbae25ca167f4a79a0572a0927418bdf/height=288;version=1;width=512/https%3A%2F%2Fres.cloudinary.com%2Fzenn%2Fimage%2Fupload%2Fs--GE12P1uL--%2Fc_fit%252Cg_north_west%252Cl_text%3Anotosansjp-medium.otf_55%3A%2525E3%252583%25259A%2525E3%252582%2525A4%2525E3%252583%2525BB%2525E3%252582%2525AC%2525E3%252582%2525AC%2525E3%252583%2525BC%2525E3%252583%2525AA%2525E3%252583%2525B3%2525E3%252580%25258C%2525E3%252582%2525B3%2525E3%252583%2525B3%2525E3%252582%2525BD%2525E3%252583%2525BC%2525E3%252583%2525AB%2525E3%252581%2525AF%2525E7%252599%2525BD%2525E3%252581%25258B%2525E3%252581%2525A3%2525E3%252581%25259F%2525E3%252580%25258D%252Cw_1010%252Cx_90%252Cy_100%2Fg_south_west%252Cl_text%3Anotosansjp-medium.otf_37%3A%2525E3%252581%2525BA%2525E3%252581%252584%252528pei0804%252529%252Cx_203%252Cy_121%2Fg_south_west%252Ch_90%252Cl_fetch%3AaHR0cHM6Ly9zdG9yYWdlLmdvb2dsZWFwaXMuY29tL3plbm4tdXNlci11cGxvYWQvYXZhdGFyLzViZTM2ZTM2MTMuanBlZw%3D%3D%252Cr_max%252Cw_90%252Cx_87%252Cy_95%2Fv1627283836%2Fdefault%2Fog-base-w1200-v2.png)