タグ

incidentに関するmuddydixonのブックマーク (2)

  • 重大事故の時にどうするか?|miyasaka

    ヤフー時代の部下から突然メッセンジャーが。 「以前宮坂さんが緊急対応時に残して頂いた言葉を今度セミナーで使っていいですか?」 と。 リーダーの仕事はいっぱいあるけどなかでも大きな仕事の一つは重大事故の発生の時の陣頭指揮。平時は部下で回せるようにするのがマネジメントだけど、危機の時まで部下にまかせるわけにはいかない。 お恥ずかしながらヤフー在職中の22年で何度か重大事故を起こし関係者の人に多大な迷惑をかけてしまった。その度にその陣頭指揮をとった。 結果的にヤフーのなかでもっとも深刻な事故対策をやった人の一人じゃなかろうか。そのなかからノウハウ的なものがたまってきたものを部下にメモしておくってあげたものを彼は覚えていてくれたらしい。 彼いわく危機対応の時にすっごく役にたって指針になったといってくれて送ってくれた。 ひょっとしたら他の人にも参考になるかとおもって(若干訂正してますが)ここに残して

    重大事故の時にどうするか?|miyasaka
  • スマートニュースにおける Incident との向き合い方 - SmartNews Engineering Blog

    はじめに Site Reliability Engineering チームの Engineering Manager 尾形(@nobu666)です。考えてみたら SRE チームに関してこの Blog でネタにしたことがなかったことに今更気づいてしまいました。UZABASE さん主催の SRE Lounge #3 でも少し触れたのですが、今回は Incident への対応から、Report の書き方、そしてその Review について紹介しようと思います。 Incident Incident Review は障害の振り返り会のことを指します。ポストモーテムということもあります。その前に、そもそも Incident とはなんでしょうか。会社によって定義は様々だと思いますが、弊社においては「ユーザ、あるいは顧客(広告主であったり媒体社であったり)に直接的な影響が出た障害」を Incident と

    スマートニュースにおける Incident との向き合い方 - SmartNews Engineering Blog
  • 1