タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

incidentと障害に関するbraitomのブックマーク (2)

  • インシデント管理で得られた教訓

    0 0 57 0 ジョーイ・ベイダ、ロス・デリンジャー共同執筆 Dropbox では、インシデント管理は信頼性への取り組みにおける重要な要素だと考えています。実際の障害発生に備えるために、カオス エンジニアリング(Chaos Engineering)などのプロアクティブな手法も採用していますが、インシデントへの対応の仕方がユーザー エクスペリエンスを大きく左右します。サイトの停止や製品の問題が発生する可能性がある場合、ユーザーにとって、それは一刻を争う事態です。 導入されて数年になるインシデント管理プロセスの主要コンポーネントですが、この領域には常に進歩する要素がありました。時間をかけて、技術的にも組織的にも、さらには手続き的にも細かな調整を加えてきました。 この投稿で触れているのは、 Dropbox がインシデント管理で得た教訓の一部について、深く掘り下げて説明します。インシデントにおけ

    インシデント管理で得られた教訓
    braitom
    braitom 2021/04/09
    Dropboxでのインシデント対応プロセスについて。
  • スマートニュースにおける Incident との向き合い方 - SmartNews Engineering Blog

    はじめに Site Reliability Engineering チームの Engineering Manager 尾形(@nobu666)です。考えてみたら SRE チームに関してこの Blog でネタにしたことがなかったことに今更気づいてしまいました。UZABASE さん主催の SRE Lounge #3 でも少し触れたのですが、今回は Incident への対応から、Report の書き方、そしてその Review について紹介しようと思います。 Incident Incident Review は障害の振り返り会のことを指します。ポストモーテムということもあります。その前に、そもそも Incident とはなんでしょうか。会社によって定義は様々だと思いますが、弊社においては「ユーザ、あるいは顧客(広告主であったり媒体社であったり)に直接的な影響が出た障害」を Incident と

    スマートニュースにおける Incident との向き合い方 - SmartNews Engineering Blog
    braitom
    braitom 2018/07/22
    スマートニュースでのインシデント対応について。インシデント発生時の対応方法の工夫、レポートの書き方、インシデントレビューのやり方などが書かれている。
  • 1