タグ

運用に関するhatekun33のブックマーク (2)

  • 障害発生時の対応フロー(初期対応、本格対応、再発防止) - 勘と経験と読経

    タイムラインで目に付いたこの記事を読んで考えたこと。 システム障害と僕達はいかにして戦えば良いのか、障害対応について考えた - Qiita そういえば障害発生時の対応フローは、割と標準的なものが無いような気がする(不勉強で知らないだけかもしれないけれど)。共通フレーム2013でも細かい定義は無かったし、他の書籍で読んだ記憶も無い。というわけでいったん経験的な知恵をアウトプットしてみようかと。 基的な流れ 割と自分のイメージと似た障害対応フローが公共系システムのドキュメントとして公開されてたので流用する。ここから拝借したもの。 図にもあるように、基的な流れは リカバリー対応(初期対応、一次対応) トラブル復旧作業(格対応) 再発防止 が一般的だと思っている。 初期対応のフレーム 初期対応で考えることはだいたいこんな感じ。あわててプログラムを修正する前にやることがある。 問題調査のために

    障害発生時の対応フロー(初期対応、本格対応、再発防止) - 勘と経験と読経
  • 【社内資料公開】構築担当者向け 運用チームに引き継ぐ時に気にしてほしい3つのポイント | DevelopersIO

    はじめに こんにちは植木和樹@上越妙高オフィスです。AWS上でのインフラ構築が終わり、アプリケーションがデプロイされるといよいよサービスローンチ。数日〜数週間様子をみて問題がなければ運用チームに業務を引き継ぐことが多いかと思います。 運用チームへの引き継ぎ資料を作って「あとはよろしくね」となるわけですが、その段階で「待て」がかかってしまうことがあります。(だいたい待てを言うのは私なんですが) 今回はスムーズに運用チームに業務引き継ぎができるように、私が注意しているポイントをまとめておきたいと思います。 3つのポイント 注意するポイントは3つです。 1. Input なにをトリガーに作業が始まるのか。どんな通知がくるのか。 2. Action 何をするのか。 3. Output 作業が終わったら誰に報告するのか。 1つずつ説明していきます。 1. Input 運用チームは基的に「イベント・

    【社内資料公開】構築担当者向け 運用チームに引き継ぐ時に気にしてほしい3つのポイント | DevelopersIO
  • 1