はじめに 現在はAWSで構築されたシステムの運用保守業務に携わっており、その一環として障害調査を行うことが多々あります。 少しは経験値が上がったため、障害が発生した際に初動で確認する事項をまとめてみました。 インフラ基盤観点で障害調査を行うさいの参考になれば幸いです。 前提条件 当システムの構成は以下となっているため、それに即した調査項目となっています。 ALB/NLB・ECS・RDSを利用している ECSはEC2上で実行している(Fargateでは利用していない) ECSクラスター(以下クラスター)の自動スケーリング設定をしている ECS サービス(以下サービス)の自動スケーリング設定をしている RDSはAuroraを利用している また、障害は予期せぬコンテナの停止を想定しています。 NLB/ALBの調査事項 メトリクス 初めにロードバランサーのメトリクスからターゲットの状態を確認します
![【AWS】障害時の調査事項まとめ ~ELB・ECS・RDS~ - Qiita](https://cdn-ak-scissors.b.st-hatena.com/image/square/1643ce346f8614c0a4d4d4f45ba1b1421c14318b/height=288;version=1;width=512/https%3A%2F%2Fqiita-user-contents.imgix.net%2Fhttps%253A%252F%252Fcdn.qiita.com%252Fassets%252Fpublic%252Farticle-ogp-background-9f5428127621718a910c8b63951390ad.png%3Fixlib%3Drb-4.0.0%26w%3D1200%26mark64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTkxNiZoPTMzNiZ0eHQ9JUUzJTgwJTkwQVdTJUUzJTgwJTkxJUU5JTlBJTlDJUU1JUFFJUIzJUU2JTk5JTgyJUUzJTgxJUFFJUU4JUFBJUJGJUU2JTlGJUJCJUU0JUJBJThCJUU5JUEwJTg1JUUzJTgxJUJFJUUzJTgxJUE4JUUzJTgyJTgxJTIwJUVGJUJEJTlFRUxCJUUzJTgzJUJCRUNTJUUzJTgzJUJCUkRTJUVGJUJEJTlFJnR4dC1jb2xvcj0lMjMyMTIxMjEmdHh0LWZvbnQ9SGlyYWdpbm8lMjBTYW5zJTIwVzYmdHh0LXNpemU9NTYmdHh0LWNsaXA9ZWxsaXBzaXMmdHh0LWFsaWduPWxlZnQlMkN0b3Amcz1jYzFiZTdiN2Y0YmZjZGZiZGMwMTRjM2ZkZjdlZDQ5OQ%26mark-x%3D142%26mark-y%3D112%26blend64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTcxNiZ0eHQ9JTQwS2FtaWJheWFzaGlfTWFpJTIwaW4lMjAlRUYlQkMlQTElRUYlQkMlQjIlRTMlODIlQTIlRTMlODMlODklRTMlODMlOTAlRTMlODMlQjMlRTMlODIlQjklRTMlODMlODglRTMlODMlODYlRTMlODIlQUYlRTMlODMlOEUlRTMlODMlQUQlRTMlODIlQjglRTYlQTAlQUElRTUlQkMlOEYlRTQlQkMlOUElRTclQTQlQkUlRUYlQkMlODhBUkklRUYlQkMlODkmdHh0LWNvbG9yPSUyMzIxMjEyMSZ0eHQtZm9udD1IaXJhZ2lubyUyMFNhbnMlMjBXNiZ0eHQtc2l6ZT0zMiZ0eHQtYWxpZ249bGVmdCUyQ3RvcCZzPTlmMGExZGViYWE0NzkyOThlNWU4YzY2MmZhNTE3OThm%26blend-x%3D142%26blend-y%3D491%26blend-mode%3Dnormal%26s%3D7f73327d54c068a1cde1b86d6d5004df)