タグ

監視に関するhateq567のブックマーク (9)

  • ネットワーク機器の死活監視や遠隔での再起動が可能な自動リブートタップ「T1901」、ラトックシステムが販売 

    ネットワーク機器の死活監視や遠隔での再起動が可能な自動リブートタップ「T1901」、ラトックシステムが販売 
  • AWS監視アラート 事始め - mazyu36の日記

    はじめに 入門監視をはじめ一般的な監視に関するプラクティスは出回っているものの、AWSで具体的に何を監視するか?そのとっかかりについてはあまり出回っていないような気がします。 AWSの監視ってみんな何監視してるんすか…っていうぐらい実例あまり見つからないな。門外不出?— mazyu36 (@mazyu36) 2023年2月14日 どこまで監視するかは基的にシステムの特性によると思います。一方でAWSのサービスごとにシステムによらずよく監視で使う項目というのもあるかと思います。 今回は過去の経験をもとに、最低限この辺りは監視することが多いかなというものをまとめてみます。全体像としては以下になります。 最低限これは監視しないとダメでしょ、とかこれは不要でしょ、などなどあるかと思います。そういうのがあればぜひコメントいただきたいです。 はじめに 「監視」について 前提 1-1. Webサービス

    AWS監視アラート 事始め - mazyu36の日記
  • 1万台のサーバを監視できると話題のPrometheusをGrafanaと組み合わせて導入した話 | Nagisaのすゝめ

    はじめに 初めまして、下記の記事にて紹介がありました インフラエンジニアの榎戸です。 golangを使って開発したWebAPIを1年半運用して改善してきたことー月間20億PVのマンガサービス開発の裏側 場数を踏んできたのかは分かりませんが 笑 23歳エンジニア歴は2年と浅めです。 まだまだ未熟なエンジニアですが 今回はPrometheus + Grafana について紹介させて頂きます。 内容については下記となります。 Prometheus導入の経緯 Prometheus概要 Prometheusでの監視構成 次回お知らせ それでは始めていきます。 Prometheus導入の経緯 まずPrometheusを導入した経緯について少しだけ触れたいと思います。 弊社では月間20億PVのマンガサービスやそれと並行して走っているマンガサービス、また動画配信サービスや、アプリゲームの配信なども行なって

    1万台のサーバを監視できると話題のPrometheusをGrafanaと組み合わせて導入した話 | Nagisaのすゝめ
  • 「ITインフラ監視実践入門」という本を書きました! | こえむの編集後記

    このたび、「ソフトウェアエンジニアのための ITインフラ監視[実践]入門 (Software Design plus)」というを執筆・刊行する運びとなりました。 2016/01/16より発売です!Amazonなどのオンライン書店では先行予約も始まっております。 電子書籍版もあります。「Gihyo Digital Publishing」のサイト、またはKindleをどうぞ。 こんな人にオススメ! サーバの監視設定ってどうやればいいかわからない サーバの監視設定はやったけど監視の業務をどう回せばいいかわからない サーバの監視についてまとまった情報が欲しい 書では、体系的な知識を持ってすれば、多くの方にもサーバの監視設定を行っていただくことができるよう、まとめています。 現在、Webサービスをはじめとしたサーバを用いたシステムを運用するにあたって、サーバの監視は外せない業務となっています。し

    「ITインフラ監視実践入門」という本を書きました! | こえむの編集後記
  • 【社内資料公開】AWSトラブルシューティングページまとめ/より早い原因把握のために心がけること | DevelopersIO

    はじめに こんにちは植木和樹です。オンプレで10年近くサーバーの保守運用をやっていた経験からいいますと、AWSの障害発生率は非常に低くて驚きます。数百台規模のサーバーを扱ってますと、毎日どこかでのサーバーでディスク、CPUファン、メモリーパリティエラーなんかの故障が起きていて日々対応に駆けまわってた覚えがあります。 さてAWSの障害発生率が低いといってもゼロというわけではありません。仮に0.1%だとしても1000日つまり3年運用していれば1回くらい障害に遭遇するものです。0.01%だったとしてもサーバーが1万台あれば1日1回なにかしらのトラブルに遭遇しても不思議ではありません。 トラブルに遭遇すると、当然サービスや処理に影響をきたしてしまうわけで早期の暫定処置と、その後に恒久的な対策が求められます。その時に重要なのは早く正しく原因を特定することです。トラブルシューティング力が重要です。 A

    【社内資料公開】AWSトラブルシューティングページまとめ/より早い原因把握のために心がけること | DevelopersIO
  • Nagiosによる企業向け監視システムの構築 第1回「監視サーバ構築」

    はじめに ブログでは、Chefおよび、Vagrantを用いた仮想インフラの構築について取り上げてきました。今回は、構築した仮想インフラの障害監視を行う監視システムの構築方法を2回に分けて解説します。第1回は、サーバー監視ツールのNagiosのインストールから、監視対象サーバの設定方法を解説します。 なお、構築に必要なソフトウエアは、Chefを用いたLAMP開発環境の構築方法~仮想環境構築編を参考にして、インストールして下さい。また、全ての構築作業は、Chefを用いて行います。 監視サーバの構築 構築する監視サーバのベースとなる仮想マシンを作成し、HTTPサーバをインストールします。 Boxの初期化 ベースとなる仮想マシン(Box)の初期化を行います。 $ mkdir -p ~/vagrant/nagios-server && cd ~/vagrant/nagios-server $ va

    Nagiosによる企業向け監視システムの構築 第1回「監視サーバ構築」
  • 【統合運用管理】クラウド時代のジョブ管理の決定版となるか?Hinemos World 2013に参加してきた | DevelopersIO

    【統合運用管理】クラウド時代のジョブ管理の決定版となるか?Hinemos World 2013に参加してきた はじめに こんにちは植木和樹です。2013年11月15日に「Hinemos World 2013」が開催されましたので、そちらに参加してきました。日は参加レポートとなります。筆者はHinemosをバージョン 2.4、3.1 の頃、主にWindowsサーバーの監視を目的に使用していました。ジョブ管理機能については使っていなかったため、今回発表されたバージョン 4.1でどんなことができるようになったのか知りたかったのが参加動機です。 オンプレにせよAWSにせよ、業務システムを構築した後の運用では「バッチジョブの定時実行」や「定形ジョブの任意実行」が少なからず必要になります。AWSに不慣れなオペレーターでもオペミスなく操作でき、失敗時には通知またはリカバリ処理ができるようなジョブ管理シ

    【統合運用管理】クラウド時代のジョブ管理の決定版となるか?Hinemos World 2013に参加してきた | DevelopersIO
  • ScaleOut | Supership

    2024年4月1日より、Supership株式会社は親会社であるSupershipホールディングス株式会社に吸収合併されました。 合併に伴い、存続会社であるSupershipホールディングスは社名をSupershipに変更し、新たな経営体制を発足しました。件に関する詳細は、プレスリリースをご確認ください。 2024年4月1日より、Supership株式会社は親会社であるSupershipホールディングス株式会社に吸収合併されました。 合併に伴い、存続会社であるSupershipホールディングスは社名をSupershipに変更し、新たな経営体制を発足しました。 件に関する詳細は、プレスリリースをご確認ください。

    ScaleOut | Supership
  • Wgetとメールを使ったお手軽サーバ死活監視

    Wgetとメールを使ったお手軽サーバ死活監視:Windows環境でちょっとした定型業務を自動化する(1/2 ページ) 管理下のWebサーバが止まったら、速やかに管理者の携帯端末へメールで通知する。そんな死活監視システムを、無償のソフトウェア・ツールとバッチ・ファイルを組み合わせて簡単かつ手軽に実現しよう。 連載目次 サーバ管理者が行うべき作業はいくつもあるが、その中でも特に重要なのが「予期せぬサーバの停止」の検出とその対処だろう。いうまでもなくサーバが停止していることが分かったら、なるべく早く復旧に向けて対応しなければならない。そのためには、普段からサーバを継続的に監視しておき、停止などの異常があれば速やかに検出して、管理者に知らせる必要がある。 社内設置のサーバであれば特段の監視体制を用意せずとも、その異常に気付きやすい。距離的にもネットワーク的にも「身近」であり、また周りのスタッフが異

    Wgetとメールを使ったお手軽サーバ死活監視
  • 1