タグ

monitoringと障害に関するakishin999のブックマーク (5)

  • SNS mixi の障害察知手法の進化

    WebQA Meeting Vol.2 https://peraichi.com/landing_pages/view/webqa-2

    SNS mixi の障害察知手法の進化
  • 負荷低すぎはもはや障害じゃないのか - mikedaの日記

    前のブログの続きで、もにかじ7で話した小ネタその2。 実際にサービスでなんかやったというのじゃなく、こういうこと考えてるんだけどみんなどうしてます?って話です。 まずオンプレ時代はサーバのスペックダウンはけっこう大変だったし、頑張ってメモリやCPU引っこ抜いてもそんなに節約にならなかった。 ※CPUやメモリはサーバ価格の一部でしかないし、ラック費用(消費電力)もあるし。 でもクラウド前提だとスペックダウンはとても簡単で、スペック半分にすると価格も半分になる。 そうすると、 『イベントで一時的にc4.4xlarge(8万/月)にして、そのまま最大CPU使用率10%とかで数ヶ月放置されている』 みたいなのはビジネス的な損失という意味で明らかに障害で、監視すべきじゃないだろうか? みんななんかやってますか? というようなことを参加者に聞いてみました。 参加者の中では、AutoScalingしてい

    負荷低すぎはもはや障害じゃないのか - mikedaの日記
  • 監視アーキテクチャ(Sensu,Pingdom,Mackerel,StatusPage.io,PagerDuty)についてまとめてみる(2014年12月版) - Glide Note

    Sensu Advent Calendarに便乗して、Kaizen Platform, Inc.の2014年12月現在の監視アーキテクチャの話をちょっとしてみようと思う。 モニタリング領域 サービスを監視している領域 Pingdom Pingdom - Website Monitoring 外部ネットワークからのサービスの死活監視。アメリカ、ヨーロッパ、アジアなどの拠点からサービスの死活監視が出来るため、特定の地域からアクセス出来ない場合なのが検知出来る。 後述するstatuspage.ioとの連携で、障害を検知すると、サービスのステータス状況が自動で変わるようになっている Sensu Sensu | The open source monitoring framework. 監視フレームワーク サーバを内部ネットワークから監視するために利用 サーバのプロセス監視、サーバ間の疎通監視、エラ

  • 完璧な監視システムの作り方 in cybozu.com - Cybozu Inside Out | サイボウズエンジニアのブログ

    こんにちは、Hazama チームの萩原(@hagifoo)です。 ハードウェアは故障し、ソフトウェアにはバグがあり、運用ではミスがおきるもの。もちろん、障害が発生しないのが理想ですが人間が作ったものに完璧はありません。そこで、障害の前兆や発生を捉え、その詳細を運用チームに知らせるための監視システムが必要となります。cybozu.com でも以下のようにありとあらゆるものを監視するシステムを構築し日夜監視を行なっています。 今回は、そんな cybozu.com の監視(モニタリング)システムについてお話しします。 cybozu.com と障害 監視システムの設計 3つの監視 外形監視 症状監視・リソース監視 ログ監視 その他の監視 モニタリングフレームワーク 誰が監視者を監視するのか? まとめ cybozu.com と障害 まずは、監視対象である cybzou.com について説明します。

    完璧な監視システムの作り方 in cybozu.com - Cybozu Inside Out | サイボウズエンジニアのブログ
  • システム障害はなぜ繰り返されるのか?(4) システム監視で障害を防ぐ

    ユーザー企業は、ベンダーがシステム監視をしていると考えているが、実は質的なシステム監視はしていない。コンピュータの死活監視をしていることでシステム監視をしていると考えている企業が大半なのである。正しくシステム監視をすればシステム障害を未然に防ぐことはできるだろうが、現状のシステム監視方法では未然防止は難しい。 現状のシステム監視方法の問題 現状のシステム監視方法は「死活監視」と「リソース監視」がある。死活監視は、その名の通りで、コンピュータが死んでいるのか、"活きて" いるのかを監視することが主目的で、具体的にはコンピュータの応答監視などを行う。死活監視により障害を検知した場合、自動復旧を行い、障害対応にかかる時間を短縮してダウンタイムを短くする。リソース監視は、CPU、メモリー、ディスクなどのリソース使用状況の監視である。 システム監視ソフトウェアの多くは、リソース監視を行うことで、シ

    システム障害はなぜ繰り返されるのか?(4) システム監視で障害を防ぐ
  • 1