[B! 監視][運用] atm_09_tdのブックマーク

[書籍レポート] 「オブザーバビリティ・エンジニアリング」はパワーワード満載の「『入門監視』の次に読むべき本」だった | DevelopersIO

自分の関わるアプリケーションやインフラのモニタリングに困っている？　オーケイ、冒頭からアクセル全開の力強いワードにあふれたこの一冊を紹介するぜ！はじめに今年(2023年)の1月末に発売されたこちらの本、もう読まれたという方も多いのではないでしょうか！（挨拶本記事は、まだ読まれていない、買ってもいないという方に向けて、「紹介しなきゃ」という謎の強い使命感をもって書かれています。というのも、実は本記事の執筆者（ぼくです）は、300ページを越えるこの本のまだ半分ほどしか読むことが出来ていません。。！ *1 それでもこの本を紹介するモチベーションは十分です。なにしろ、この本は冒頭から、もっといえば「まえがき」の段階から、パワーワードにあふれた一冊だからです。引用してみましょう。 “（「オブザーバビリティ」という）用語が注目されるようになると、ある種の隣接性を共有する別の用語と互換的に使われ

atm_09_td 2023/02/28

リンク

バッチプログラムの運用と監視について検討しよう | メルカリエンジニアリング

こんにちは。メルペイでバックエンドソフトウェアエンジニアをしている id:koemu です。バッチプログラムのお話、今回は運用・監視についてお話したいと思います。当社はすべての業務が24時間行われていますので、システムがオンラインのときに動作するバッチプログラムについてのみ議論します。過去の記事はこちらにあります。運用に備えてバッチプログラムの運用について、「プリモーテム」「実行管理」そして「ログ管理」の3点について述べていきます。プリモーテムポストモーテムという言葉を聞いたことがある方はいらっしゃるかと思います。ポストモーテムとは、GoogleのSRE本の15章*1によれば、障害などの失敗を振り返り、今後に活かすプロセスの総称と捉えることができます。さて、プリモーテム(プリモータム)とは何でしょうか。この言葉は、私が最近読んだThe Manager’s Path*2*3で使

atm_09_td 2019/04/17

リンク

監視アーキテクチャ(Sensu,Pingdom,Mackerel,StatusPage.io,PagerDuty)についてまとめてみる(2014年12月版) - Glide Note

Sensu Advent Calendarに便乗して、Kaizen Platform, Inc.の2014年12月現在の監視アーキテクチャの話をちょっとしてみようと思う。モニタリング領域サービスを監視している領域 Pingdom Pingdom - Website Monitoring 外部ネットワークからのサービスの死活監視。アメリカ、ヨーロッパ、アジアなどの拠点からサービスの死活監視が出来るため、特定の地域からアクセス出来ない場合なのが検知出来る。後述するstatuspage.ioとの連携で、障害を検知すると、サービスのステータス状況が自動で変わるようになっている Sensu Sensu | The open source monitoring framework. 監視フレームワークサーバを内部ネットワークから監視するために利用サーバのプロセス監視、サーバ間の疎通監視、エラ

atm_09_td 2014/12/04

リンク

http://paperboy-all.github.io/docs/nagios/learning.html

atm_09_td 2013/11/29

リンク

完璧な監視システムの作り方 in cybozu.com - Cybozu Inside Out | サイボウズエンジニアのブログ

こんにちは、Hazama チームの萩原(@hagifoo)です。ハードウェアは故障し、ソフトウェアにはバグがあり、運用ではミスがおきるもの。もちろん、障害が発生しないのが理想ですが人間が作ったものに完璧はありません。そこで、障害の前兆や発生を捉え、その詳細を運用チームに知らせるための監視システムが必要となります。cybozu.com でも以下のようにありとあらゆるものを監視するシステムを構築し日夜監視を行なっています。今回は、そんな cybozu.com の監視(モニタリング)システムについてお話しします。 cybozu.com と障害監視システムの設計 3つの監視外形監視症状監視・リソース監視ログ監視その他の監視モニタリングフレームワーク誰が監視者を監視するのか？まとめ cybozu.com と障害まずは、監視対象である cybzou.com について説明します。

atm_09_td 2013/10/28

リンク

“障害発生前の解決”をどうやって実現するか

データセンター環境で“監視”といえば、まず思い浮かぶのは「死活監視」だろう。文字通り、サーバが「生きている（稼働している）か、死んでいる（停止している）か」を見極める簡便な手法だ。これだけで用が足りる場合ももちろんあるが、それだけでは複雑化する現在のシステム構成には対応しきれないという課題が明らかになってきている。今回は、死活監視の限界と、これから欠かせない存在となるサーバ性能監視のポイントについて考える。死活監視の限界物理サーバの処理能力を無駄なく使うには死活監視は、端的に言ってしまえば「1サーバ、1アプリケーション」構成を前提とした、ごく簡便な監視手法である。 Webサーバでは、現在でも1Uラックマウントサーバをラック一杯に詰め込み、それぞれのサーバでは必要最小限の構成のOSとWebサーバ・ソフトウェアだけが稼働している、といったシステムが使われるが、こうした使い方なら、死活

atm_09_td 2012/06/20

リンク

大規模インフラの監視システムその2 | GREE Engineering

こんにちは。グリーのmdoi(@m_doi)です。今回は、グリーの監視システムについて説明したいと思います。以前、こちらの記事にて、リソース監視システムの説明をさせて頂きましたが、死活監視やログ監視については語られなかったので、気になっていた方も多いと思います。ということで、今回は、グリーのインフラにおける死活監視やログ監視、アラート通知システムを紹介したいと思います。何を使っているの？グリーでは、死活監視にNagiosを使用していました。監視システムの中では、かなり有名なソフトウェアですから、監視システムの構築に使用したことがある方も多いのではないでしょうか。プラグインも豊富に存在するので、様々な監視を行うことができます。死活監視は、このNagiosの機能をそのまま利用し、ログ監視は、Nagiosと独自に作成したエージェント及びログフィルタを連携させて行っていました。全体のシステ

atm_09_td 2011/01/20

リンク

はてなブックマーク

タグ

関連タグで絞り込む (5)

監視と運用に関するatm_09_tdのブックマーク (7)

お知らせ

今週のはてなブックマーク数ランキング（2024年9月第4週）

今週のはてなブックマーク数ランキング（2024年9月第3週）

今週のはてなブックマーク数ランキング（2024年9月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス