この記事は、Merpay Advent Calendar 2022 の22日目の記事です。 こんにちは、メルペイSREチームでEM(Engineering Manager)をしているfoostanです。今回はメルペイにおけるインシデントマネジメントとナレッジシェアについてご紹介します。なおメルペイではインシデントをいくつかのタイプに分類してマネジメントフローを定めていますが、今回はシステム障害を原因としたインシデントにフォーカスしています。 インシデントから学びを得る 私たちはメルペイのサービスを開発し提供していますが、システムが何も壊れずに24時間365日動き続けることはありえませんし、オペレーションミスを絶対にしないとも言い切れません。そのためSLI(Service Level Indicator)を定義し、SLO(Service Level Objective)という担保すべき信頼性