並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 20 件 / 20件

新着順 人気順

chaosengineeringの検索結果1 - 20 件 / 20件

  • 「サル軍団」にシステム障害を起こさせる、Netflixの驚異的なトラブル撲滅法

    Netflixは、わざと本番障害を起こしてすぐ復旧させることを繰り返し、本当の障害発生に備える、という驚くべき手法「カオスエンジニアリング」を実践している。 その効果は実証されている。Netflixが全面的に採用しているAmazon Web Services(AWS)で、2017年2月に中核施設の一つ、米バージニア北部リージョン(広域データセンター群)にて大規模障害が起きたとき、別のリージョンに速やかに切り替えたという。 Netflixの先進的な取り組みを紹介するこの特集の最後に、カオスエンジニアリングを取り上げる。

      「サル軍団」にシステム障害を起こさせる、Netflixの驚異的なトラブル撲滅法
    • Googleが従業員に対して実践している「カオスエンジニアリング」とは?

      By BrianAJackson サービスやシステムに意図的にトラブルを発生させることで、実際にトラブルが発生した際に的確な対処ができるような訓練を行うことを「カオスエンジニアリング」といいます。Googleが従業員に対して行っている4つのカオスエンジニアリングについて、Googleのエンジニアリングディレクターであるデイブ・レンジン氏が語っています。 Chaos Engineering For People Systems w/ Dave Rensin of Google - YouTube ◆チームメンバーをランダムで不在にさせる 週に1度、各チームからランダムにピックアップされたメンバーを自宅勤務とします。選ばれたメンバーは自身の仕事を遂行することはできますが、他のメンバーからの質問には一切答えてはならないというルールで自宅勤務を行います。これを行うことで、突然誰かが欠勤しても円滑に

        Googleが従業員に対して実践している「カオスエンジニアリング」とは?
      • Chaos Engineering やっていく宣言 - クックパッド開発者ブログ

        技術部のヨシオリです。 Netflix が Chaos Engineering の論文を公開して 2 年ほど経ちました。 クックパッドは最近、 Chaos Engineering を導入する事を決めました。 この記事ではその背景を紹介したいと思います。 そもそも Chaos Engineering とは Netflix では Failure Injection Testing として、営業時間中に意図的に障害を起す事をやっていました。Chaos Monkey というインスタンスとサービスを落すものから Chaos Gorilla、Kong という availability zone や region 単位で障害を発生させるものなどです。 その経験から Chaos Engineering というものが提唱されました。 Principles of Chaos Engineeringによれば C

          Chaos Engineering やっていく宣言 - クックパッド開発者ブログ
        • 今年読んだ技術書籍(2019年)

          今年読んだ技術書籍やレポートなどをざっくりまとめてる.Infrastructure Engineer・Platfomerとして日々の業務に直結するものから1年くらいかけてやっていきたいと思っていることなどを中心に. Kubernetes 業務ではメインにKubernetesを使っているのでKubernetesに関わる書籍は発売されれば大体目を通すようにしている. 今年発売されたので良かったのはProgramming Kubernetes.この本はCRDやOperatorによってKubernetes nativeなアプリケーションを構築することにフォーカスしている.昨年のJapanContainerDaysでのMicroservices Platform on Kubernetes at Mercariでも話したようにKubernetesを使う大きな理由の1つはその拡張性にある.Kubebu

          • Chaos Engineering に向けてレシピサービスの Steady State を追求する - クックパッド開発者ブログ

            こんにちは、今年ソフトウェアエンジニアとして新卒入社した @itkq です。社会人になってから 1 クールで見るアニメの本数がガクッと減っていることに気づいて最近は無力を感じています。さて、この開発者ブログで「Chaos Engineering やっていく宣言*1」が公開されたことは記憶に新しいと思います。私はインフラストラクチャー部 SRE グループに配属され、最近は Chaos Engineering に関わる取り組みも行っています。その中から今回は「レシピサービスの Steady State を追求する」取り組みについて、背景や現状も含めて紹介します。 Steady State とはなにか、なぜ必要か 一昔前の Web サービスといえば、様々な機能が 1 つのアプリケーション上に実装されたモノリシックアーキテクチャが一般的でした。その後サービスという単位で機能を切り出して別アプリケー

              Chaos Engineering に向けてレシピサービスの Steady State を追求する - クックパッド開発者ブログ
            • PRINCIPLES OF CHAOS ENGINEERING - Principles of chaos engineering

              PRINCIPLES OF CHAOS ENGINEERING Last Update: 2019 March (changes) Chaos Engineering is the discipline of experimenting on a system in order to build confidence in the system’s capability to withstand turbulent conditions in production. Advances in large-scale, distributed software systems are changing the game for software engineering. As an industry, we are quick to adopt practices that increase

              • カオスエンジニアリングを導入したクックパッドの挑戦 マイクロサービス化に伴う可用性の低下に対応 - エンジニアHub|Webエンジニアのキャリアを考える!

                カオスエンジニアリングを導入したクックパッドの挑戦 マイクロサービス化に伴う可用性の低下に対応 料理のレシピ投稿・検索サービスのクックパッドでは2年前からカオスエンジニアリングに取り組み、さまざまな事例やノウハウを蓄積しています。クックパッドの技術部・SR(Site Reliability)グループの小杉山拓弥さんとDX(Developer Productivity)グループの鈴木康平さんに、導入の理由やさまざまな知見を伺いました。 カオスエンジニアリング(Chaos Engineering)とは、稼働中のサービスにあえて擬似的な障害を発生させることで、システムの耐障害性を検証する手法です。動画配信サービスを提供するNetflix社が2011年ごろから実践し、ソフトウェアや情報を積極的に公開したことで世界中から注目されるようになりました。 国内ではまだ導入事例も少ないなか、料理のレシピ投稿

                  カオスエンジニアリングを導入したクックパッドの挑戦 マイクロサービス化に伴う可用性の低下に対応 - エンジニアHub|Webエンジニアのキャリアを考える!
                • AWS大規模障害を乗り越えたNetflixが語る「障害発生ツールは変化に対応できる勇気を与えてくれる」 | さくらのナレッジ

                  このコラムのNetflixの「FIT(障害注入テスト)」について書いた記事を執筆した直後のことですが、Netflixのサービスをある災害が襲いました。AWS(Amazon Web Services)のus-east-1リージョン全体で大規模障害が発生したのです。 この大規模障害を同社がどのように乗り切ったか。その一部が以下のBlog記事で明かされています。 Chaos Engineering Upgraded 「AWSリージョンが落ちることはめったにない。だが、それは実際に起こった」と記事では語っています。2015年9月20日、US-EAST-1リージョンのAmazonのDynamoDBサービスが、問題が発生して停止します。これは20以上のAWSサービスに影響を及ぼしました。その影響により、AWSをインフラとする複数のインターネットサービスが6〜8時間にわたってダウンしてしまったのです。

                    AWS大規模障害を乗り越えたNetflixが語る「障害発生ツールは変化に対応できる勇気を与えてくれる」 | さくらのナレッジ
                  • Where Chaos Engineering comes from, and what's next

                    https://websystemarchitecture.hatenablog.jp/entry/2019/02/26/100725 で話した資料です

                      Where Chaos Engineering comes from, and what's next
                    • Chaos Engineeringという考え方 / A concept of Chaos Engineering

                      ChaosConf2019 recapイベント( https://chaosconf2019recap.splashthat.com/ )で発表した資料です。(一部修正) Chaos Engineeringの基本的な知識や考え方を、 Chaos Conf 2019に登壇した企業が語った内容を併せて発表したものです。

                        Chaos Engineeringという考え方 / A concept of Chaos Engineering
                      • Chaos Engineeringの概要とPumba入門 - Qiita

                        この記事は リクルートライフスタイル Advent Calendar 2017 4日目の記事です。 はじめに こんにちは!データエンジニアリンググループでエンジニアをやっている @shotat です。 最近は CETというプロジェクトでDataflowを書いたりGoを書いたり無限にSQLを書いたりしています。 先月サンフランシスコで行われた QCon2017 に参加してきました。 QConではArchitecture, DevOps, Microservices, AI, CS, Culture, Web…と幅広いトラックがあり、全体としてサービス・組織をどのようにスケーリングさせていくか?という点に関心が集まっていたように感じました。 トラックの一つとしてChaos Engineeringがあり、中でもChaos Architecture のセッションはカンファレンスで一番Attende

                          Chaos Engineeringの概要とPumba入門 - Qiita
                        • Chaos Engineering

                          Read it now on the O’Reilly learning platform with a 10-day free trial. O’Reilly members get unlimited access to books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers. With so many interacting components, the number of things that can go wrong in a distributed system is enormous. You’ll never be able to prevent all possible failure modes, but you can

                            Chaos Engineering
                          • GitHub - amzn/awsssmchaosrunner: Amazon's light-weight library for chaos engineering on AWS. It can be used for EC2 and ECS (with EC2 launch type).

                            You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                              GitHub - amzn/awsssmchaosrunner: Amazon's light-weight library for chaos engineering on AWS. It can be used for EC2 and ECS (with EC2 launch type).
                            • クックパッドが「カオスエンジニアリング」を始めた理由

                              2019年2月27日、恵比寿ガーデンプレイスザ・ガーデンホールにて、「Cookpad TechConf 2019」が開催されました。Cookpadのエンジニアやデザイナーがどのようにサービス開発に取り組んでいるのか、またその過程で得た技術的知見について公開します。プレゼンテーション「Re:silience から始めるカオスエンジニアリング生活」に登壇したのは、クックパッド株式会社の小杉山拓弥氏。講演資料はこちら Re:silience から始めるカオスエンジニアリング生活 小杉山拓弥氏(以下、小杉山):それでは、発表を始めさせていただきます。 まず、自己紹介をします。 IDはitkqでインターネットでやっていて、クックパッドには2018年に新卒入社しました。技術部SREグループというところにいて、カオス大臣という設定があるんですが、まあ、それはよくて、耐障害性の向上などの取り組みをやってい

                                クックパッドが「カオスエンジニアリング」を始めた理由
                              • GitHub - dastergon/awesome-chaos-engineering: A curated list of Chaos Engineering resources.

                                Chaos Monkey - A resiliency tool that helps applications tolerate random instance failures. orchestrator - MySQL replication topology management and HA. kube-monkey - An implementation of Netflix's Chaos Monkey for Kubernetes clusters. Gremlin Inc. - Failure as a Service. Chaos Toolkit - A chaos engineering toolkit to help you build confidence in your software system. steadybit - A Chaos Engineeri

                                  GitHub - dastergon/awesome-chaos-engineering: A curated list of Chaos Engineering resources.
                                • ソフトウェアにおけるアンチフラジャイルとレジリエンス - 勘と経験と読経

                                  気になったキーワード「アンチフラジャイル」について調べてみた。また類似の概念「レジリエンス」との違いについての現時点の理解とそれについて思ったこと。 アンチフラジャイル 自分がこのキーワードを知ったのはInfoQの記事なのだけれども、Qiitaにも整理された記事があったので、あわせて読んだ現時点での理解は以下の通りである。 「アンチフラジャイル」というキーワードはブラック・スワンで有名なタレブ氏が2012年に書いたその名も「Antifragile」が元になっている。同書はもちろんソフトウェア開発ではなく経済的な観点で書かれているが、この考え方をソフトウェア開発に適用するというアイディアがある。 旧来の手法で開発されたソフトウェアは、「フラジャイル」もしくは「ロバスト」である。つまり、突発的な事象に対して脆弱(フラジャイル)か、よく検討された異常に対してのみ対応できる(ロバスト)状況である。

                                    ソフトウェアにおけるアンチフラジャイルとレジリエンス - 勘と経験と読経
                                  • #64: Automating Chaos Experiments in Production

                                    Netflix の Chaos Engineering 最新事情っぽい論文を森田が冷やかします。感想などはハッシュタグ #misreading か hello@misreading.chat にお寄せください。 [1905.04648] Automating chaos experiments in production Netflix TechBlog Four Reasons We Choose Amazon’s Cloud as Our Computing Platform (2010) 5 Lessons We’ve Learned Using AWS – Netflix TechBlog – Medium (2010) The Netflix Tech Blog: Chaos Monkey Released Into The Wild (2012, from Internet A

                                      #64: Automating Chaos Experiments in Production
                                    • https://www.chaosconf.io/

                                        https://www.chaosconf.io/
                                      • Automating chaos experiments in production | the morning paper

                                        the morning paper a random walk through Computer Science research, by Adrian Colyer Made delightfully fast by strattic Automating chaos experiments in production Basiri et al., ICSE 2019 Are you ready to take your system assurance programme to the next level? This is a fascinating paper from members of Netflix’s Resilience Engineering team describing their chaos engineering initiatives: automated

                                          Automating chaos experiments in production | the morning paper
                                        • LitmusChaos - Open Source Chaos Engineering Platform

                                          LitmusChaosCon 2024 on September 12th! Register now(Free) or submit a talk proposal submit a talk proposal(last date: June 24th) Open SourceChaos EngineeringplatformLitmus is an open source Chaos Engineering platform that enables teams to identify weaknesses & potential outages in infrastructures by inducing chaos tests in a controlled way. Developers & SREs can simply execute Chaos Engineering wi

                                            LitmusChaos - Open Source Chaos Engineering Platform
                                          1