  • Googleが従業員に対して実践している「カオスエンジニアリング」とは?

    By BrianAJackson サービスやシステムに意図的にトラブルを発生させることで、実際にトラブルが発生した際に的確な対処ができるような訓練を行うことを「カオスエンジニアリング」といいます。Googleが従業員に対して行っている4つのカオスエンジニアリングについて、Googleのエンジニアリングディレクターであるデイブ・レンジン氏が語っています。 Chaos Engineering For People Systems w/ Dave Rensin of Google - YouTube ◆チームメンバーをランダムで不在にさせる 週に1度、各チームからランダムにピックアップされたメンバーを自宅勤務とします。選ばれたメンバーは自身の仕事を遂行することはできますが、他のメンバーからの質問には一切答えてはならないというルールで自宅勤務を行います。これを行うことで、突然誰かが欠勤しても円滑に

    • 今年読んだ技術書籍(2019年)

      今年読んだ技術書籍やレポートなどをざっくりまとめてる.Infrastructure Engineer・Platfomerとして日々の業務に直結するものから1年くらいかけてやっていきたいと思っていることなどを中心に. Kubernetes 業務ではメインにKubernetesを使っているのでKubernetesに関わる書籍は発売されれば大体目を通すようにしている. 今年発売されたので良かったのはProgramming Kubernetes.この本はCRDやOperatorによってKubernetes nativeなアプリケーションを構築することにフォーカスしている.昨年のJapanContainerDaysでのMicroservices Platform on Kubernetes at Mercariでも話したようにKubernetesを使う大きな理由の1つはその拡張性にある.Kubebu

      • カオスエンジニアリングを導入したクックパッドの挑戦 マイクロサービス化に伴う可用性の低下に対応 - エンジニアHub|Webエンジニアのキャリアを考える!

        カオスエンジニアリングを導入したクックパッドの挑戦 マイクロサービス化に伴う可用性の低下に対応 料理のレシピ投稿・検索サービスのクックパッドでは2年前からカオスエンジニアリングに取り組み、さまざまな事例やノウハウを蓄積しています。クックパッドの技術部・SR(Site Reliability)グループの小杉山拓弥さんとDX(Developer Productivity)グループの鈴木康平さんに、導入の理由やさまざまな知見を伺いました。 カオスエンジニアリング(Chaos Engineering)とは、稼働中のサービスにあえて擬似的な障害を発生させることで、システムの耐障害性を検証する手法です。動画配信サービスを提供するNetflix社が2011年ごろから実践し、ソフトウェアや情報を積極的に公開したことで世界中から注目されるようになりました。 国内ではまだ導入事例も少ないなか、料理のレシピ投稿

        • KubernetesのPodやネットワークをわざと落としまくってカオスエンジニアリングのテストができる「Chaos Mesh」がバージョン1.0に到達

          KubernetesのPodやネットワークをわざと落としまくってカオスエンジニアリングのテストができる「Chaos Mesh」がバージョン1.0に到達 Kubernetes上のシステムに対してわざと障害を発生させることで、システムの耐障害性のテストを行うためのソフトウェア「Chaos Mesh」がバージョン1.0に到達したことを、Chaos Meshの開発チームが明らかにしました。 Proud to announce the GA of #ChaosMesh 1.0: Powerful chaos support Visual chaos orchestration Enhanced observability Safe and controllable chaos Learn more: https://t.co/ynx3KIMzIS#chaosengineering @CloudNat

          • Chaos Engineeringという考え方 / A concept of Chaos Engineering

            ChaosConf2019 recapイベント( https://chaosconf2019recap.splashthat.com/ )で発表した資料です。(一部修正) Chaos Engineeringの基本的な知識や考え方を、 Chaos Conf 2019に登壇した企業が語った内容を併せて発表したものです。

            • GitHub - amzn/awsssmchaosrunner: Amazon's light-weight library for chaos engineering on AWS. It can be used for EC2 and ECS (with EC2 launch type).

              You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session.

              • 【AWS Dev Day Tokyo 2019 セッションレポート】 Chaos Engineering 〜入門と実例〜 | DevelopersIO

                AWS Dev Day Tokyo 2019 のセッション Chaos Engineering 〜入門と実例〜 に関してのレポートです。 登壇者 株式会社Cygames 和田 明久 様 アマゾン ウェブ サービス ジャパン株式会社 畑 史彦 様 セッション概要 Chaos Engineering と聞くと皆さんは何を思い浮かべますか? Netflix 社の Chaos Monkey による VM のシャットダウンなどが有名かもしれませんが、これは Chaos Engineering のかなり初期から存在するツールの1つでしかありません。現在はそこからエコシステムが拡大し、インフラストラクチャ・レイヤではなくアプリケーション・レイヤで注入し故障をより精緻に制御する方法論やサービスメッシュ・レイヤへオフロードする仕組みなど、多様な発展を見せています。このセッションでは、これら Chaos En

                • #64: Automating Chaos Experiments in Production

                  Netflix の Chaos Engineering 最新事情っぽい論文を森田が冷やかします。感想などはハッシュタグ #misreading か hello@misreading.chat にお寄せください。 [1905.04648] Automating chaos experiments in production Netflix TechBlog Four Reasons We Choose Amazon’s Cloud as Our Computing Platform (2010) 5 Lessons We’ve Learned Using AWS – Netflix TechBlog – Medium (2010) The Netflix Tech Blog: Chaos Monkey Released Into The Wild (2012, from Internet A

                  • SLO策定までの道とChaosEngineeringを使った最適解の見つけ方 / SLO ChaosEngineering

                    CloudNative Days Tokyo 2022

                    • Automating chaos experiments in production | the morning paper

                      the morning paper a random walk through Computer Science research, by Adrian Colyer Made delightfully fast by strattic Automating chaos experiments in production Basiri et al., ICSE 2019 Are you ready to take your system assurance programme to the next level? This is a fascinating paper from members of Netflix’s Resilience Engineering team describing their chaos engineering initiatives: automated

                      • LitmusChaos - Open Source Chaos Engineering Platform

                        LitmusChaosCon 2024 on September 12th! Register now(Free) or submit a talk proposal submit a talk proposal(last date: June 24th) Open SourceChaos EngineeringplatformLitmus is an open source Chaos Engineering platform that enables teams to identify weaknesses & potential outages in infrastructures by inducing chaos tests in a controlled way. Developers & SREs can simply execute Chaos Engineering wi

