These are the slides from the Chaos Engineering Bootcamp I ran at Velocity 2017 in San Jose #VelocityConf

Read it now on the O’Reilly learning platform with a 10-day free trial. O’Reilly members get unlimited access to books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers. With so many interacting components, the number of things that can go wrong in a distributed system is enormous. You’ll never be able to prevent all possible failure modes, but you can
NetflixはChaos Monkeyのアップグレードを発表した。Chaos MonkeyはSoftware as a Serviceの弾力性を改善するための汎用ツールであり、サービス提供時間中にランダムにサーバやコンテナを停止する。今回のアップグレードで、Chaos MonkeyはSpinnakerと統合された。SpinnakerはNetflixの継続的デリバリのプラットフォームであり、さまざまなクラウドプラットフォームで利用できる。同社のDockerコンテナのプラットフォームであるTitusも対応している。 Chaos MonkeyはSpinnakerを経由して構成情報を受信し、この情報を使うことでChaos Monkeyはリソースの停止をスケジューリングして実行する。これによって停止のスケジューリングのユーザ体験が向上できる。アプリやスタック、クラスタをグループ化できる。また、さま
The Chaos Monkey originated with Netflix, who built a Chaos Monkey in order to test that they can consistently handle failure. Partly because of its name and partly because the idea of randomly terminating production servers is an absurd check of fault tolerate architectures, the Chaos Monkey concept took a life of its own and has become part of AWS legend. Werner Vogels even kicked off a t-shirt
ネットを利用したビデオレンタルサービス大手の米Netflixは7月30日、Amazonクラウドインフラストラクチャ向けの障害テストツール「Chaos Monkey」をオープンソースソフトウェアとして公開した。クラウドインフラストラクチャ内での障害を意図的に発生させるツールで、アプリケーションの耐障害性をテストできるという。 Chaos MonkeyはAmazon Web Services(AWS)クラウドでホストされている環境の耐障害性をテストするシステム。インターネット経由でのDVDレンタルサービスやオンラインでの動画ストリーミングサービスを展開しているNetflixはクラウドを多用してシステムを構築しており、さまざまな障害シナリオに対応するために開発したという。 Chaos Monkeyはクラウドシステムで運用中のインスタンスをランダムに無効にし障害を引き起こす機能を持つ。これにより、
http://techblog.netflix.com/2013/10/introducing-chaos-to-c.html 「歴史上の有名な開発プロジェクトからまなぶべきこと」をまとめていたときに、Videoの中で、ある大型ロケットエンジンの開発において、信頼性テストのために小型爆弾をエンジンの噴射口辺りで爆発させて耐性を調べた云々のエピソードが紹介されていて、更に続いて「ネット業界で同じようなことをやってるのはNetflixぐらいだ。」という説明がありました。その時は何のことだかよくわからなかったのでブログでは取り上げなかったのですが、今回見つけました。 以前紹介したように、北米のインターネットトラフィックの30%以上を占めるNeflixはインフラをAmazonに全面的に移行しています。クラウドに移行した後の学びとして、 自社データセンターの時は、個別のハードウェアインスタンスが障害
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く