Tue, Jun 28, 2022 お仕事でプリセールスをして極めてミッションクリティカルな業務システムに携わっているため、お客様やSIパートナー様といっしょに「絶対に止まらないシステム」について検討することが多くあります。インフラの可用性については、すでに多く議論されているのですが、いわゆるクラウドネイティブアプリケーションの場合は、分散システムを考慮したアプリケーションアーキテクチャについて検討する必要があります。 これはクラウドに限った話ではないのですが、分散システムでは一過性の障害をなくすことはできません。なので分散システムにおいて「SLAを100%にするぞ!」ではなく、「障害が起こっても素早く回復させる」「一部の障害を系全体に伝播させない」というようなアプローチのほうが筋が良いといえるでしょう。 参考: Azure で回復性があるアプリケーションを実現するためのエラー処理 クラウ
![Daprによる分散アプリケーションのリトライ処理について](https://cdn-ak-scissors.b.st-hatena.com/image/square/728b6ce2415fbe7ff36224518989138a04a3b488/height=288;version=1;width=512/https%3A%2F%2Fasashiho.github.io%2Fthumbnails%2Fprof.jpg)