2019年4月29日のブックマーク (6件)

  • Google - Site Reliability Engineering

    Example Postmortem Shakespeare Sonnet++ Postmortem (incident #465) Date: 2015-10-21 Authors: jennifer, martym, agoogler Status: Complete, action items in progress Summary: Shakespeare Search down for 66 minutes during period of very high interest in Shakespeare due to discovery of a new sonnet. Impact:163 Estimated 1.21B queries lost, no revenue impact. Root Causes:164 Cascading failure due to com

    tbpg
    tbpg 2019/04/29
    Google SRE のポストモーテムの記述例
  • 根本原因解析 - Wikipedia

    原因解析(英:Root cause analysis (略:RCA))は、原因分析評価の一つで、来は事故などの根原因の究明が目的の評価方法である。 航空分野、医療分野、工業分野など幅広い分野で用いられる。このため、分野間で違いが出る可能性がある。 来の事故原因の評価だけではなく、対策の評価にも応用することもある。 ステップ(基形)[編集] RCAは次の4つの基ステップで構成される。(各分野などで違いがあるため、基的なステップのみの説明である。) 問題点明確化。問題点の明確化と説明。 時系列現象。通常の状況から問題が発生するまでのタイムラインでの情報収集と整理。 原因追求。根原因と他の原因要因を区別(ここでFTAなどを使用)。 検証。根原因と問題の間の因果関係グラフからの検証。 参考文献[編集] IEC/ISO 31010 分析評価手法 <英語版> 分析方法[編集] なぜ

    tbpg
    tbpg 2019/04/29
    “根本原因解析(英:Root cause analysis (略:RCA))は、問題解決の中の一つの部類に属し、問題や事象の根本的な原因を明らかとすることをねらいとする”
  • Google - Site Reliability Engineering

    Postmortem Culture: Learning from Failure Written by John Lunney and Sue Lueder Edited by Gary O’ Connor The cost of failure is education. Devin Carraway As SREs, we work with large-scale, complex, distributed systems. We constantly enhance our services with new features and add new systems. Incidents and outages are inevitable given our scale and velocity of change. When an incident occurs, we fi

    tbpg
    tbpg 2019/04/29
    失敗から学ぶGoogleのポストモーテム文化について
  • Google - Site Reliability Engineering

    What is Site Reliability Engineering (SRE)? SRE is what you get when you treat operations as if it’s a software problem. Our mission is to protect, provide for, and progress the software and systems behind all of Google’s public services — Google Search, Ads, Gmail, Android, YouTube, and App Engine, to name just a few — with an ever-watchful eye on their availability, latency, performance, and cap

    tbpg
    tbpg 2019/04/29
    "SRE is what you get when you treat operations as if it’s a software problem. Our mission is to protect, provide for, and progress the software and systems behind all of Google’s public services"
  • SREって何? これまでのシステム運用やDevOpsとは何が違うの?

    近年、何かと話題に上がるSRE(Site Reliability Engineering)。しかし、「自分たちのチーム・組織に関係する話なのかよく分からない」「具体的に何をやればいいの?」といった感想を持つ方は多いのではないでしょうか。連載では、そういった方に向けて、自社でSREチームの立ち上げを行った筆者が、SREの考え方 をご紹介します。また、連載の後半では、SREをいち早く取り入れた企業に導入背景などもインタビュー形式でお伝えする予定です。第一回となる記事では、「SREって何?」「SREをやりたいが、どこからはじめればよいのか分からない」 方に向けて、SREの概観をご紹介します。 はじめに はじめまして。株式会社スタディスト SREチームの@katsuhisa__です。 スタディストでは、システム運用に関わる全般的な業務にはじまり、モニタリングやログ収集基盤の整備などを担当してい

    SREって何? これまでのシステム運用やDevOpsとは何が違うの?
    tbpg
    tbpg 2019/04/29
    "SREは、Googleが提唱したエンジニアの役割です。また、Site Reliability Engineeringという名称の通り、システムの信頼性に焦点を置いていま" "SREは、ソフトウェアエンジニアに運用チームの設計を依頼した時にできあがるものです"
  • エンジニア歴2年間の活動履歴 - たんぱんこぞうの観察日記

    tbpg
    tbpg 2019/04/29
    “行きの電車の中でさらっとサークル名を確認しておく。 一つだけ、強烈なタイトルで僕の目を引いた同人誌があった。 「完全SIer脱出マニュアル...?」 ”