なので Step Functions を使いましょうと言うお話です。 ある ECS で動いているバッチジョブの定期実行に EventBridge Rules を使って実装していたのですが、ある時ジョブがほぼ一定の頻度で失敗している事に気づきました。 AWS サポートに問い合わせると、今回のケースでは EventBridge Rules ではリトライできないので、 Step Functions を間に噛ませて下さいとご提案頂いたので、今回はその様にしました。 それでは以下経緯を交えながら実際のアーキテクチャをご紹介していきます。 構成 ECS クラスタは Fargate ではなく EC2 駆動Capacity providers を使って ASG (Spot Fleet は使っていない) をコントロールしているECS Task は普通のバッチジョブで、ワークロードが終わったら落ちるジョブの定