はじめに こんにちは! CRE(Customer Reliability Engineering)でサーバーサイドエンジニアをしているotaka(@oh_minisera)です。 突然ですが、管理画面から重いクエリを発行してしまい本番環境に障害が発生...。あなたならどう対応しますか? 今回は管理画面を舞台にした障害事例に対し、どんな背景の下で意思決定をしたのか紹介できればと思います。 障害は突然やってくる いつもアラートを確認しているチャンネルにこんな投稿が。 この後、本番環境にてアプリ向けのAPIや決済用APIのパフォーマンスが一時的に悪化する障害が確認されました。調査の結果、管理画面から発行されるクエリがDBのCPUを圧迫していたことが原因でした。 解決方針 私たちのインフラの構成では、管理画面のアプリとユーザー向けアプリ(B/43)が一つのDBを共有しています。そのため、今回のよう