カオスエンジニアリングはわざと本番システムの一部に障害(サーバーダウンや応答遅延)を起こしてすぐ自動復旧させることを繰り返し、本当の障害発生に備える運用方法である。動画配信大手の米ネットフリックス(Netflix)が米アマゾン・ウェブ・サービスのクラウド「Amazon Web Servies(AWS)」上のシステムを対象に実践していることで知られる。 テスト環境ではなくあえて本番環境に障害を起こすのは、自動復旧の仕組みが実際に想定通り動作することを確かめるためだ。テスト環境でうまく動作しても本番環境では問題が起こるリスクがある。このリスクをなくす。 本番環境の一部に障害を起こしてもシステムが継続稼働するように、システムは冗長構成にする。加えて素早く自動復旧する仕組みを設ける。 意図的に本番環境で障害を起こすことを「カオスエクスペリメント」と呼ぶ。カオスエクスペリメントでは「障害注入テスト(
システムには障害がつきものです。どんなにしっかりと作られたサービスであっても思わぬところで、バグやミスが発覚して、トラブルになるものです。大事なのはこういった障害を次への糧にしていくこと。失敗というのは大事な資産なので、管理できるようにしましょうという話。 あわせて読みたい あきらめるにはまだ早い!ソースコードの品質向上に効果的なアプローチ メンタリングの方法について基礎をまとめました。内心でなく行動を変えることが障害報告とも共通します。 新入社員が来てメンターになれって言われたけど、どうすればいいのかという対話テクニック 半年で40kg痩せた!ダイエットでわかるリーンなプロジェクトマネジメント手法 心理的安全性ガイドライン(あるいは権威勾配に関する一考察) 障害の種類と障害報告について 障害には、小さなもの、たとえば画面に表示されているテキストの乱れから、すべての画面で50xエラーが発生
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く