タグ

incidentに関するbraitomのブックマーク (4)

  • インシデント管理で得られた教訓

    0 0 57 0 ジョーイ・ベイダ、ロス・デリンジャー共同執筆 Dropbox では、インシデント管理は信頼性への取り組みにおける重要な要素だと考えています。実際の障害発生に備えるために、カオス エンジニアリング(Chaos Engineering)などのプロアクティブな手法も採用していますが、インシデントへの対応の仕方がユーザー エクスペリエンスを大きく左右します。サイトの停止や製品の問題が発生する可能性がある場合、ユーザーにとって、それは一刻を争う事態です。 導入されて数年になるインシデント管理プロセスの主要コンポーネントですが、この領域には常に進歩する要素がありました。時間をかけて、技術的にも組織的にも、さらには手続き的にも細かな調整を加えてきました。 この投稿で触れているのは、 Dropbox がインシデント管理で得た教訓の一部について、深く掘り下げて説明します。インシデントにおけ

    インシデント管理で得られた教訓
    braitom
    braitom 2021/04/09
    Dropboxでのインシデント対応プロセスについて。
  • ML Logs/Metrics Incident & Anomaly Detection Software for DevOps | Zebrium

    We're thrilled to announce that Zebrium has been acquired by ScienceLogic! Learn More Machine Learning for Logs ML for Logs Automatically Shows you the Root Cause Logs and Metrics go In, Incidents and Root Cause Come Out Step 1 - Ingest and Categorization Install our Fluentd log and our optional Prometheus metrics collector, or fork a copy of your logs using Logstash.  No parsers, code changes, ru

    braitom
    braitom 2020/06/12
    インシデント検出サービス。ルールベースではなく機械学習で自動でインシデントをキャッチする。
  • Security Incident on 8/31/2019 - Details and FAQs – CircleCI Support Center

    Last updated on Sept 4, 2019 On August 31st, we became aware of a security incident involving CircleCI and a third-party analytics vendor. An attacker was able to improperly access some user data in our vendor account, including usernames and email addresses associated with GitHub and Bitbucket, along with user IP addresses and user agent strings. The engineering and security teams at CircleCI imm

    Security Incident on 8/31/2019 - Details and FAQs – CircleCI Support Center
  • スマートニュースにおける Incident との向き合い方 - SmartNews Engineering Blog

    はじめに Site Reliability Engineering チームの Engineering Manager 尾形(@nobu666)です。考えてみたら SRE チームに関してこの Blog でネタにしたことがなかったことに今更気づいてしまいました。UZABASE さん主催の SRE Lounge #3 でも少し触れたのですが、今回は Incident への対応から、Report の書き方、そしてその Review について紹介しようと思います。 Incident Incident Review は障害の振り返り会のことを指します。ポストモーテムということもあります。その前に、そもそも Incident とはなんでしょうか。会社によって定義は様々だと思いますが、弊社においては「ユーザ、あるいは顧客(広告主であったり媒体社であったり)に直接的な影響が出た障害」を Incident と

    スマートニュースにおける Incident との向き合い方 - SmartNews Engineering Blog
    braitom
    braitom 2018/07/22
    スマートニュースでのインシデント対応について。インシデント発生時の対応方法の工夫、レポートの書き方、インシデントレビューのやり方などが書かれている。
  • 1