状況 2020/4/24 約6:00(?)以降、突然 AWS ECS / AWS Batch でジョブの実行に失敗するようになった。(AWS BatchのステータスRUNNABLEで停止してしまっていた。) コンピューティング環境はEC2インスタンスを利用(非Fargate) 当日のAM3:00頃まではジョブが正常に稼働していたことを確認済み。 実行するdocker image、ジョブ定義などには一切変更を加えておらず、全くもって原因不明でした。しばらくハマったので、対処方法を記録しておきます。どなたかの手助けになれば幸いです。 結論(原因) AWS ECS / Batch 上でコンテナの死活管理などを司るAmazon ECS コンテナエージェントのコンテナが起動に失敗しており、EC2インスタンスを正常にコンピューティング環境のリソースとして認識できていなかったのが原因。 突然この時間から