[B! monitoring][障害] akishin999のブックマーク

SNS mixi の障害察知手法の進化

WebQA Meeting Vol.2 https://peraichi.com/landing_pages/view/webqa-2

akishin999 2016/09/13

リンク

前のブログの続きで、もにかじ7で話した小ネタその2。実際にサービスでなんかやったというのじゃなく、こういうこと考えてるんだけどみんなどうしてます？って話です。まずオンプレ時代はサーバのスペックダウンはけっこう大変だったし、頑張ってメモリやCPU引っこ抜いてもそんなに節約にならなかった。 ※CPUやメモリはサーバ価格の一部でしかないし、ラック費用(消費電力)もあるし。でもクラウド前提だとスペックダウンはとても簡単で、スペック半分にすると価格も半分になる。そうすると、『イベントで一時的にc4.4xlarge(8万/月)にして、そのまま最大CPU使用率10%とかで数ヶ月放置されている』みたいなのはビジネス的な損失という意味で明らかに障害で、監視すべきじゃないだろうか？みんななんかやってますか？というようなことを参加者に聞いてみました。参加者の中では、AutoScalingしてい

akishin999 2015/02/02

リンク

監視アーキテクチャ(Sensu,Pingdom,Mackerel,StatusPage.io,PagerDuty)についてまとめてみる(2014年12月版) - Glide Note

Sensu Advent Calendarに便乗して、Kaizen Platform, Inc.の2014年12月現在の監視アーキテクチャの話をちょっとしてみようと思う。モニタリング領域サービスを監視している領域 Pingdom Pingdom - Website Monitoring 外部ネットワークからのサービスの死活監視。アメリカ、ヨーロッパ、アジアなどの拠点からサービスの死活監視が出来るため、特定の地域からアクセス出来ない場合なのが検知出来る。後述するstatuspage.ioとの連携で、障害を検知すると、サービスのステータス状況が自動で変わるようになっている Sensu Sensu | The open source monitoring framework. 監視フレームワークサーバを内部ネットワークから監視するために利用サーバのプロセス監視、サーバ間の疎通監視、エラ

akishin999 2014/12/03

リンク

完璧な監視システムの作り方 in cybozu.com - Cybozu Inside Out | サイボウズエンジニアのブログ

こんにちは、Hazama チームの萩原(@hagifoo)です。ハードウェアは故障し、ソフトウェアにはバグがあり、運用ではミスがおきるもの。もちろん、障害が発生しないのが理想ですが人間が作ったものに完璧はありません。そこで、障害の前兆や発生を捉え、その詳細を運用チームに知らせるための監視システムが必要となります。cybozu.com でも以下のようにありとあらゆるものを監視するシステムを構築し日夜監視を行なっています。今回は、そんな cybozu.com の監視(モニタリング)システムについてお話しします。 cybozu.com と障害監視システムの設計 3つの監視外形監視症状監視・リソース監視ログ監視その他の監視モニタリングフレームワーク誰が監視者を監視するのか？まとめ cybozu.com と障害まずは、監視対象である cybzou.com について説明します。

akishin999 2013/10/28

リンク

システム障害はなぜ繰り返されるのか?(4) システム監視で障害を防ぐ

ユーザー企業は、ベンダーがシステム監視をしていると考えているが、実は本質的なシステム監視はしていない。コンピュータの死活監視をしていることでシステム監視をしていると考えている企業が大半なのである。正しくシステム監視をすればシステム障害を未然に防ぐことはできるだろうが、現状のシステム監視方法では未然防止は難しい。現状のシステム監視方法の問題現状のシステム監視方法は「死活監視」と「リソース監視」がある。死活監視は、その名の通りで、コンピュータが死んでいるのか、"活きて" いるのかを監視することが主目的で、具体的にはコンピュータの応答監視などを行う。死活監視により障害を検知した場合、自動復旧を行い、障害対応にかかる時間を短縮してダウンタイムを短くする。リソース監視は、CPU、メモリー、ディスクなどのリソース使用状況の監視である。システム監視ソフトウェアの多くは、リソース監視を行うことで、シ

akishin999 2012/11/14

リンク

はてなブックマーク

タグ

関連タグで絞り込む (2)

monitoringと障害に関するakishin999のブックマーク (5)

お知らせ

今週のはてなブックマーク数ランキング（2024年11月第1週）

月間はてなブックマーク数ランキング（2024年10月）

今週のはてなブックマーク数ランキング（2024年10月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

関連タグで絞り込む (2)

monitoringと障害に関するakishin999のブックマーク (5)

SNS mixi の障害察知手法の進化

負荷低すぎはもはや障害じゃないのか - mikedaの日記

監視アーキテクチャ(Sensu,Pingdom,Mackerel,StatusPage.io,PagerDuty)についてまとめてみる(2014年12月版) - Glide Note

完璧な監視システムの作り方 in cybozu.com - Cybozu Inside Out | サイボウズエンジニアのブログ

システム障害はなぜ繰り返されるのか?(4) システム監視で障害を防ぐ

お知らせ

今週のはてなブックマーク数ランキング（2024年11月第1週）

月間はてなブックマーク数ランキング（2024年10月）

今週のはてなブックマーク数ランキング（2024年10月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス