タグ

障害に関するyouheyのブックマーク (2)

  • 完璧な監視システムの作り方 in cybozu.com - Cybozu Inside Out | サイボウズエンジニアのブログ

    こんにちは、Hazama チームの萩原(@hagifoo)です。 ハードウェアは故障し、ソフトウェアにはバグがあり、運用ではミスがおきるもの。もちろん、障害が発生しないのが理想ですが人間が作ったものに完璧はありません。そこで、障害の前兆や発生を捉え、その詳細を運用チームに知らせるための監視システムが必要となります。cybozu.com でも以下のようにありとあらゆるものを監視するシステムを構築し日夜監視を行なっています。 今回は、そんな cybozu.com の監視(モニタリング)システムについてお話しします。 cybozu.com と障害 監視システムの設計 3つの監視 外形監視 症状監視・リソース監視 ログ監視 その他の監視 モニタリングフレームワーク 誰が監視者を監視するのか? まとめ cybozu.com と障害 まずは、監視対象である cybzou.com について説明します。

    完璧な監視システムの作り方 in cybozu.com - Cybozu Inside Out | サイボウズエンジニアのブログ
    youhey
    youhey 2013/10/29
  • メンテナンスやトラブルの際にディレクターがしておいた方がいい“8”のTips : LINE Corporation ディレクターブログ

    ディレクターの渡邉雄介です。担当しているサービスのメンテナンスやトラブルがあったとき、初動が遅れたり、パニックになって判断能力が鈍ってしまったことはないでしょうか? ディレクターブログでは、すでに何度か障害時の基的な対応についての記事 (障害対応的ディレクションスキル・サーバ障害と向き合うには) が書かれていますが、今回はもう一歩踏み込んで、メンテナンスやトラブルの際にディレクターがしておいた方がいいTipsをいくつかご紹介します。 Tips1. トラブルの第一報だけは最速で開発メンバーに伝える 責任感の強い人は、まずはディレクターが問題をある程度取りまとめてからエンジニアや関係者に共有……と思いがちですが、たとえその時点で問題をよく把握できていなくても、障害が起きているということだけは最速で伝えるべきです。これは下記の2つの点から重要です。 ◆ひとりよりも複数で問題に取り組んだ方が解決

    メンテナンスやトラブルの際にディレクターがしておいた方がいい“8”のTips : LINE Corporation ディレクターブログ
  • 1