Amazon ES で運用しているログ検索基盤の Elasticsearch が高負荷状態に陥ってしまい、なんとかして安定させる必要がありました。具体的には CPU 使用率がほぼ 100% に張り付いてしまい、クライアントが接続できないという状況です。いろいろ試行錯誤してノウハウが得られたのでまとめておきます。 Elasticsearch のバージョンは 6.2.3 で、このクラスターの特徴は次のとおりです。 Fluentd からさまざまなログを集めて Kibana で検索する 日次でインデックスが作られ、古いインデックスは Curator で削除している Fluentd から Amazon ES へ直接送っていて、クライアント側のサーバ台数はそこそこ多い VPC の中に起動しているので Kinesis Data Firehose は使えない ちなみに、Amazon ES 前提の内容になっ