こんにちは。インフラ担当の岡村です。 昨年、あるサービスで使用中のロードバランサが停止してしまうという事件が起こりました。 事の顛末を、数回に分けて紹介していきたいと思います。 もし同様の事象にお困りの場合は、役立てて頂ければと思います。 システム構成 KLabのDSASでは、ロードバランサにLVS (Linux Virtual Server) を使用しています。 ロードバランサはマスタ-バックアップ構成になっており、マスタ側が停止してしまっても、通常はバックアップ側がマスタに昇格し、サービスを継続できるようになっています。 おおまかな構成は下図のようになります。 ある日の晩、突然ロードバランサ(マスタ側)の死活監視のアラート通知が届きます。 (なんだろう..。電源障害? その他HW障害? もしくはカーネルのバグを踏んだ?) 原因調査・復旧はもちろん必要ですが、冗長構成のため、とりあえずサ
![LVSの高負荷対策 その1 ~障害発生~ : DSAS開発者の部屋](https://cdn-ak-scissors.b.st-hatena.com/image/square/3147e3e6f0cfb5999b37d90bea6d57d2dfed9fbb/height=288;version=1;width=512/https%3A%2F%2Flivedoor.blogimg.jp%2Fklab_gijutsu2%2Fimgs%2Fd%2F7%2Fd708e423-s.png)