本稿はJCB Advent Calendar 2025の12月18日の記事です。 SREチームの鳩貝です。先月ぎっくり腰になってから整骨院に通い詰めてます。 JDEP SREではシステムの信頼性を担保するため、日々さまざまな運用改善に取り組んでいます。 今回はチーム内で行っているオンコーラ(障害対応担当者)の育成施策と、そこに生成AI(Gemini)を導入した際の検証結果を紹介します。 1. 机上障害訓練「Wheel of Misfortune」における課題 JDEP SREでは主に基盤障害に対し24/365で対応する運用体制を構築しています。体制のなかでもオンコーラは監視システムからのアラートを一次切り分けし、必要に応じインシデント発生を宣言する役割を担っています。 基盤障害と一言で言っても、複数の要素技術で構成されているJDEPではその分適切な対応に多くの知見が必要です。一方で負荷軽減

