はじめに こちらは バイセルテクノロジーズ Advent Calendar 2023 の8日目の記事です。 前日の記事は那仁さんの運用プロダクトのDataflowをBigQueryサブスクリプションに移行した話でした。 SRE部の大舘です。 バイセルで、とあるプロダクトのインフラを担当しています。 このプロダクトではインフラとして Google Cloud の GKE(Google Kubernetes Engine) を用いてシステムを運用しています。 今回は Kubernetes の Rolling Update が想定通りに動かなかったこと、その原因を調査して、解決方法を見つけた時の話をしたいと思います。 はじめに 背景 Rolling Update の挙動 プロダクトに5分間アクセスできなかった時の Pod 数の推移 開発環境でデプロイ時に Pod 数が1になってしまう現象の再現