タグ

監視と設定に関するwasaiのブックマーク (6)

  • AWS監視アラート 事始め - mazyu36の日記

    はじめに 入門監視をはじめ一般的な監視に関するプラクティスは出回っているものの、AWSで具体的に何を監視するか?そのとっかかりについてはあまり出回っていないような気がします。 AWSの監視ってみんな何監視してるんすか…っていうぐらい実例あまり見つからないな。門外不出?— mazyu36 (@mazyu36) 2023年2月14日 どこまで監視するかは基的にシステムの特性によると思います。一方でAWSのサービスごとにシステムによらずよく監視で使う項目というのもあるかと思います。 今回は過去の経験をもとに、最低限この辺りは監視することが多いかなというものをまとめてみます。全体像としては以下になります。 最低限これは監視しないとダメでしょ、とかこれは不要でしょ、などなどあるかと思います。そういうのがあればぜひコメントいただきたいです。 はじめに 「監視」について 前提 1-1. Webサービス

    AWS監視アラート 事始め - mazyu36の日記
  • 東証、障害の原因を特定 「自動切り替えできない設定値になっていた」

    東京証券取引所は10月5日、株式売買システム「arrowhead」(アローヘッド)で1日に発生した障害の原因を特定し、4日中に修正したと発表した。 障害は、ストレージ内でメモリ故障が起き、サブ機にも切り替わらなかったことが原因。メモリ故障による障害が起きた際、自動切り替えできない設定値になっていたという。 arrowheadのユーザー情報などを格納するストレージ「共有ディスク装置」の1号機に搭載されたメモリが故障したことに起因。1号機が障害を検知すると、切り替え用設定値に従って自動で2号機に切り替わるはずが、切り替わらなかった。 調査したところ、メモリ故障が原因の障害パターンが発生した際、自動切り替えできない設定値になっていたという。設定値を変更すれば、自動切り替えできることが判明。4日にシステムに適用し、自動切り替えが動作することを確認したという。 稼働前のテストでは、1号機と2号機相互

    東証、障害の原因を特定 「自動切り替えできない設定値になっていた」
  • 監視について思うとこ - y-ohgi's blog

    TL;DR 監視はユーザーにサービスを提供できているかを観測するための行為 SLI/SLOを定めて、SLOを守れるようにモニタリングする ダッシュボードは定常的に表示しておくものと障害時に活用するものを作ると良い アラートはレベル分けして人間が対応しなければならないものだけ人間へ通知する 監視とは サービスを健全に動作させ続けるために監視を行います。 「健全に動作している」の定義はサービスによって異なり、ユーザーにWebページを見せることができることだったり、バッチが正常に終了することだったりします。 最終的にユーザーに正常にサービスを提供できていることを観測するために行うことに変わりはありません。 さてユーザーにサービスを提供するために何を監視しましょうか? クラウド前提であれば個人的にリソースベース(CPU/Memory)より、 SLI/SLOをベース に監視する事が望ましいと考えてい

    監視について思うとこ - y-ohgi's blog
  • Ansibleを色々触って本番導入(まだ、途中)を進めて感じたことなどまとめてみた | 日常系エンジニアのTech Blog

    Ansible(Ansible TowerやAWX)を番に導入するために色々とやった事や思った事を簡単にまとめてみました。 Ansible初めて聞いて見て感じたこと Ansibleを最初見て聞いた時に感じた事は Zabbix に似ていると感じた。 もちろん、監視という意味ではなく 自由な感じにいじれる という部分。 個人的にZabbixの魅力は インフラ基盤に捉われない監視システム が作れるところだと思っている。 とても自由度が高く簡単なスクリプトやプログラムを書いて連携させれば標準以上の監視や自動化など構築できる。 Ansibleも同じようにモジュールも自作できて組み込めて普通に動いてしまう。 自分が参画してるプロジェクトでは、巷の運用・監視パッケージ製品では対応できない部分が多々あり作り込む必要があった。 プロジェクトではVMwareやLinuxを使用しており、Ansible標準でL

    Ansibleを色々触って本番導入(まだ、途中)を進めて感じたことなどまとめてみた | 日常系エンジニアのTech Blog
  • Googleドキュメントでサイトの稼働状況をモニタリングできるApps スクリプト メール通知も可能

    サイトの稼働状況をモニタリングするサービスには、無料のものもいくつかありますが、チェックするタイミングを自由に設定したり、レポートをまとめたりするにはお金や手間がかかることもあります。 モニタリングサービスは万一に備えるものではありますが、サイトが落ちてしまうと売上に直接響いてしまうビジネスサイトであれば、万一の際にすぐさま対応するためにも、外すことのできないものですよね。 今回ご紹介するのは、無料かつ導入も簡単、個人サイトあるいは会社でGoogle Appsを導入していて、サイトの稼働状況を知るべき担当者が複数名いる場合にもオススメな、サイトのモニタリングをおこなうApps スクリプトです。 組織のマインドマップツールをマインドマイスターにすべき理由 伸びてる産業、会社、事業を紹介しまくるStrainerのニュースレターに登録!! GoogleドキュメントでサイトのモニタリングをできるA

    Googleドキュメントでサイトの稼働状況をモニタリングできるApps スクリプト メール通知も可能
    wasai
    wasai 2012/04/05
    AppScript で監視してるということか
  • サーバ監視項目でよく使う SNMP の MIB オブジェクト ID まとめ

    サーバの監視において SNMP は必須技術なわけですが、MRTG や自前スクリプトは一度設定してしまうと、サーバが増減でもしない限り、設定ファイルを見直すことってほとんどありませんよね。 でもって、久々に改めて設定ファイルを見直してみると、設定してある MIB の OID が意味不明・・・なんだっけコレ?ってことが良くあります。※少なくとも僕の場合は、毎回調べ直してる気がする・・・ なので、よく使う MIB オブジェクト ID をまとめておこう・・・と考えました。これでこれからは迷わない。 ・・・と思ったらエントリを書き始めたらビックリ仰天!SNMP の知識すら忘れてます・・・再度お勉強です・・・ヽ(τωヽ)ノ SNMPによるネットワークシステムの監視第01回:第1回:SNMPの基礎 SNMPではマネージャ(NMS:Network Management Station)という管理機器がその

    wasai
    wasai 2010/01/07
    すぐ忘れるんですよねー、MIB情報は…。肝心なときに思い出せなくて苦労してます。
  • 1