タグ

監視に関するshige1203のブックマーク (3)

  • 【社内資料公開】AWSトラブルシューティングページまとめ/より早い原因把握のために心がけること | DevelopersIO

    はじめに こんにちは植木和樹です。オンプレで10年近くサーバーの保守運用をやっていた経験からいいますと、AWSの障害発生率は非常に低くて驚きます。数百台規模のサーバーを扱ってますと、毎日どこかでのサーバーでディスク、CPUファン、メモリーパリティエラーなんかの故障が起きていて日々対応に駆けまわってた覚えがあります。 さてAWSの障害発生率が低いといってもゼロというわけではありません。仮に0.1%だとしても1000日つまり3年運用していれば1回くらい障害に遭遇するものです。0.01%だったとしてもサーバーが1万台あれば1日1回なにかしらのトラブルに遭遇しても不思議ではありません。 トラブルに遭遇すると、当然サービスや処理に影響をきたしてしまうわけで早期の暫定処置と、その後に恒久的な対策が求められます。その時に重要なのは早く正しく原因を特定することです。トラブルシューティング力が重要です。 A

    【社内資料公開】AWSトラブルシューティングページまとめ/より早い原因把握のために心がけること | DevelopersIO
  • サーバのログ監視ツールを使いこなそう

    ログを取得しても、監視していなければ意味がない。しかし、常時監視するのは現実的ではない。異常の発生をメールで通知させるなどの対策を行っておこう。(編集局) 前回はログの基的な設定について説明しました。今回は、出力されたログをサーバの運用に生かす方法を検討します。 来、ログは常に監視しておくものであって、異常時のみ確認ればよいというものではありません。ただし、常時監視できる管理者はほぼいないでしょうし、大量のログが出力されるサーバを監視するのは不可能でしょう。 であれば、少しでも労力を削減しつつ確実に必要な情報を拾う方法を考えなければいけません。そこで、ツールを利用したログの管理方法を説明します。ツールにはそれぞれ一長一短があるので、どのツールを使用するのか、あるいはツール同士を組み合わせて使用するのかを考えてみてください。 ログチェックの前提条件:時間合わせ 前回も説明したとおり、ログ

    サーバのログ監視ツールを使いこなそう
    shige1203
    shige1203 2011/02/24
    常時監視ならswatch,定期チェックならLogwatch
  • 連載記事 「ZABBIXで脱・人手頼りの統合監視」

    一歩進んだ監視のカスタマイズ 連載:ZABBIXで脱・人手頼りの統合監視(最終回) スクリプトの実行結果などを取得できるユーザーパラメータを用いて、自分のニーズにぴったり合った監視を実現

  • 1