こんにちは、馬場です。 これは、TECHSCORE Advent Calendar 2016 の1日目の記事です。 この1-2年、マイクロサービス・サブシステムに分割し、AWSとオンプレミスを使い分けてシステムを構築しています。システムを運用していく中で、オンプレミス環境/モノリシックデザインのシステムにはない経験をしました。それはネットワークの不安定さによる障害です。 通信障害は発生する前提でシステムを構築する。 AWS関連のさまざまな記事や、このブログでも書かれていることです。 わかっています。わかっているつもりだったのですが、1年間運用してみて、本当に定期的にネットワーク断が発生し、夜中に起こされ、休日に調査したりして、やっぱり1年前の私はわかっていなかったのだな、と感じました。 この記事ではどうやって乗り越えたか、シェアしたいと思います。 リトライする 基本は「リトライ」 ネットワ