9/26(水)に発生した障害の詳細報告とその後の取り組みについてお知らせいたします。 発生時間 当日のタイムライン(いずれも日本時間) 10:51 Redisのフェイルオーバーと障害発生 10:55 復旧作業と障害継続 11:00-14:50 障害対応 15:20 復旧確認 障害発生の原因について 仮説検証について 今後の対応 Redisフェイルオーバー挙動の見直し(実施済) アプリケーションの増強(実施済) Redisへ保存する監視データの効率化(実施済) 不適切なリクエストへの対応(実施済) アプリケーションモニタリングの増強(恒常対応) まとめ 発生時間 発生時間: 2018/09/26 10:51-15:20 (JST) 発生事象: Mackerelシステム全体の不調と死活監視の停止 当日のタイムライン(いずれも日本時間) 10:51 Redisのフェイルオーバーと障害発生 監視デ