こんにちは。スターフェスティバル株式会社の ikkitang です。 先日、自分が所属するエンジニアチームにて、障害対応の振り返りを実施した所、チーム全体で学びを得る事が出来たので、それについてブログを書いてみたいと思います。 発生した障害について アーキテクチャの前提共有 ある程度、障害について把握した上で読み進めてもらう方が良いように思いますので、同じような障害が発生する例を出しておきたいと思います。(弊社のアプリケーションの話をすると、コンテキストを色々説明する必要があるので、抽象化します。) 今回障害が発生したアーキテクチャの例が上図です。 自分達のチームは今、既存のシステムのリプレースを進めています。 ( 参考: DBリファクタリングのデータリモデリング勘所) ある課題解決の対応で、旧DBへの書き込みをし、それを Debeziumというアプリケーションを使い、旧DBのIn