こんにちは。部署が変わってプロダクト開発部の広告担当のUTです。 今回は障害が発生した経緯とその障害に対してどう対策したのかというところを紹介したいと思います。 概要 どのような障害が起こったのか 障害発生詳細 恒久対応 障害の原因 自動ロールアウト ConfigMapが最新しか保持されない まとめ 概要 今回紹介するのは、設定(ConfigMap)を変更した際にコンテナ側が設定を読み込めなくなりコンテナが再起動、そして負荷が高まり連鎖的にコンテナが死んでいくという障害に関する話です。 別管理の設定が稼働するサーバーに反映されず、起動しなかったり実行時エラーになったりというのはよくある話ですが、今回はKubernetesにおけるConfigMapの設定でのエラーに関する話になります。 どのような障害が起こったのか 具体的にどのような障害が起こったのかを紹介していきたいと思います。 まず前提