HDE One サービスの DevOps チームに所属する松浦です。 弊社では4年ほど前から、HDE One を動かすプラットフォームとして Amazon Web Service (以下、AWS) を利用しています。 現在私が所属するチームが管理・運用しているインスタンスは900台を超え、近い将来には1000台の大台を突破する見込みになっています。 今回は、そんな比較的管理台数が多い AWS ユーザーが直面する(であろう)、ホストの状態に起因してインスタンスが稼働しない問題とその対処法について話をしたいと思います。 impaired instance AWS のインスタンスはホストマシンのハイパーバイザー上で稼働していますが、そのためホストマシンで何らかの問題*1が発生すると、インスタンスが正常に稼働しない状態になることがあります。 これを一般的には、インスタンススターテスが impair