タグ

監視に関するmarujunjunのブックマーク (20)

  • 失敗を学びに変える「障害報告書」の書き方 ─ RettyのCTOがGoogleで学んだ「問題を隠さない文化」 - エンジニアHub|Webエンジニアのキャリアを考える!

    失敗を学びに変える「障害報告書」の書き方 ─ RettyのCTOがGoogleで学んだ「問題を隠さない文化」 人間は失敗するものです。エンジニアもまたしかり。Retty株式会社の樽石CTOが考える、失敗を学びに変える考え方とノウハウを紹介します。 はじめまして。Retty株式会社でCTOを務める樽石将人( @taru0216)です。Rettyにおける技術の責任者として不確実性の高いシステム開発を成功に導くよう牽引したり、メンバーが働きやすくなるような仕組みづくりを行ったりしています。 子供の頃からパソコンに親しみ、新卒一期生でレッドハットに就職して、Rettyに入社するまでGoogle楽天を経てきました。エンジニアとして活動して約30年。日々失敗し続けていますし、過去には大規模サービスを止めてしまったこともあります。 人間である以上、バグやエラーは必ず起こるもの。エンジニアは失敗を繰り返

    失敗を学びに変える「障害報告書」の書き方 ─ RettyのCTOがGoogleで学んだ「問題を隠さない文化」 - エンジニアHub|Webエンジニアのキャリアを考える!
  • Windowsのログ管理ツールをJPCERT/CCが公開、サイバー攻撃の挙動調査に役立つ:Windows用ツールを分かりやすくする - @IT

    Windowsのログ管理ツールをJPCERT/CCが公開、サイバー攻撃の挙動調査に役立つ:Windows用ツールを分かりやすくする JPCERT/CCは、Windowsのログ収集ツール「Sysmon」のログを管理、分析するツール「SysmonSearch」を公開した。複数のWindows端末のログを一元管理でき、監視ルールに基づいて定期的に検索する機能も備える。 JPCERTコーディネーションセンター(以下、JPCERT/CC)は2018年9月6日、Microsoftが提供するWindowsのログ収集ツール「Sysmon」が出力するログを管理、分析するツール「SysmonSearch」を公開した。サイバー攻撃を受けたときなどに、複数の端末のログを一元的に管理し、分析できる。GitHubからダウンロード可能だ。 Sysmonは端末上で動作したアプリケーションの情報やレジストリエントリの作成、

    Windowsのログ管理ツールをJPCERT/CCが公開、サイバー攻撃の挙動調査に役立つ:Windows用ツールを分かりやすくする - @IT
  • Zabbix概論

    え、まって。その並列分散処理、Kafkaのしくみでもできるの? Apache Kafkaの機能を利用した大規模ストリームデータの並列分散処理 え、まって。その並列分散処理、Kafkaのしくみでもできるの? Apache Kafkaの機能を利用した大規模ストリームデータの並列分散処理 (NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/09/05) NTTデータ 技術革新統括部 システム技術部生産技術部 インテグレーション技術センタ データ活用チーム 佐々木 徹

    Zabbix概論
  • Office 365の監視とトラブル解決に使えるツール

    今回は、「Office 365」の運用管理作業において避けて通れない、監視とトラブルシューティングを解説する。 連載目次 クラウドといえども、監視は必要 「Office 365」はクラウドのサービスであるため、基的にはサーバー機器の監視や故障対応といった運用管理作業やコストは不要だ。しかし、企業でOffice 365を利用している場合、運用管理者はサービスが正常に稼働しているかどうか、メッセージの配信に問題がないかどうかなどは常に把握しておく必要があるだろう。もし、何かトラブルがあった場合には、企業の信用やビジネスに影響が及ぶ可能性があるからだ。 そこで今回は、次の二つの観点からOffice 365の監視とトラブルの解決方法を見ていこう。 サービス稼働状況の確認 接続およびメッセージ配信状況の確認 サービス稼働状況の確認 まずは、Office 365のサービス稼働状況を確認する三つの方法

    Office 365の監視とトラブル解決に使えるツール
  • AWS障害状況をZabbixで監視 - ike-dai's blog

    AWSで発生している障害状況をモニタリングするには、AWS Health Dashboardというサイトがあります。 ここでは、各リージョンの各サービス毎に障害が発生していないかの情報を発信しています。 サービスが利用不可になっている状態のお知らせだけでなく、パフォーマンス劣化が発生している状況なども発信しています。 AWS上でサービス運用している方にとって、ここで公開される情報は結構重要です。 いち早く何が起こっているのかに気付くためにもこのサイトの情報は常にチェックしておきたいところです。 しかし、このサイトの最新情報を知るには、ブラウザでこのサイトを確認するか、RSSで配信される情報をチェックするしかありません。 何かあればプッシュ型で通知して欲しいところではないでしょうか。 そこで、このサイトの情報をZabbixで集約し、障害が発生した場合にアラートを上げれるようにしてみます。 実

    AWS障害状況をZabbixで監視 - ike-dai's blog
  • 次世代監視の大本命! Prometheus を実運用してみた - Qiita

    こんにちは!freeeでインフラゾンビをやっている @sugitak です。ゲームではレベルを上げて物理で殴る派です。 freee ではたまにインフラエンジニアの数が減るのですが、その減ったインフラエンジニアはインフラゾンビへと進化し、社内を闊歩します。インフラゾンビは主に開発チームに所属して、アプリっぽいインフラの仕事をインフラからアプリ側へと持っていきます。デプロイとか、Dockerとか、Jenkinsとかの、いわゆる DevOps 系のところですね。こうすることで開発者は手を出せるものの自由度が増えるし、インフラはより来のインフラとして純度を上げていける、 so, win-win ってわけです。 さて、そんなわけで監視です。freee Engineers Advent Calendar 2016の9日目の記事として、 Prometheus による監視が最高なのでみんなもっと使おうと

    次世代監視の大本命! Prometheus を実運用してみた - Qiita
  • nobodyonsecurity.com - 

  • http://techblog.hilife-jp.info/2012/12/jmx-java-monitoring/

  • 03_02_特集.indd

    NTT技術ジャーナル 2014.3 15 特 集 IT基盤のTCO削減に寄与するオープンソースソフトウェア活用推進技術 HeapStats開発のねらい NTT OSSセンタでは,Java* 1 に関 する技術支援の一環として,お客さま から寄せられる障害解析依頼に対応し ていますが,これらの依頼の中には, 事象発生時に取得できた情報では不十 分で,すぐに調査や解析を行えない場 合があります.そのような場合は,お 客さまに情報の再取得を依頼します が,事象の発生頻度が低い場合などで は,再現ならびに情報取得に非常に多 くの時間を要します.また,ヒープダ ンプ* 2 など従来の解析で必要とした 情報は,取得時にシステムにかける負 荷が大きく,かつ出力するファイルサ イズも巨大なため,運用中のシステム では取得が難しい場合も多くありま す.ヒープダンプが取得できないとき は,テキストファイルであ

  • Java技術最前線「JMXでソフトの健康をがっちり管理」第4回 JVMを監視する

    先週,試しにアクセスしてみたMXBeanはすべてJSR-174 Monitoring and Management Specification for the Java Virtual Machineで定義されたものです。 このJSR-174はシステムの運用・保守においてきわめて重要なAPIだと筆者は確信しています。 システムの運用中に,メモリーの使用状況やスレッド間のデッドロックの有無,CPUの使用量などをモニタリングできるということは,管理業務を行う人にとってどれほど手助けになるでしょうか。 特に,24時間,週7日間ノンストップで動作するようなシステムではなおさらです。 幸いにもJavaで構築されたシステムはすべてJVM上で動作します。つまり,メモリー使用量などの管理に必要な情報を取得するために独自に作り込む必要はまったくなく,JVMに仕込まれたMXBeanを使えば簡単に取得できるので

    Java技術最前線「JMXでソフトの健康をがっちり管理」第4回 JVMを監視する
  • 正しいシステム運用のための監視要件定義

    前回までの内容で、運用のあり方が見えてきたところで、より技術的な内容について、話を具体化していこう。 システム運用において、どのようなシステムでも必ず必要になってくるのが、「監視」である。監視が何のために必要かというと、それは、システムのサービス継続性を維持するためである。ここでは、必ず必要となる監視の要件定義に、焦点を当てて見ていく。 システムに適した監視を成功させるためのカギは、サービス継続性とは何であるかを考え、数ある監視ポイントの中で、どのようにシステムに適合した監視項目を策定するか、である。以降では、システムで必ず必要となる監視項目の定義を、どのように進めれば21世紀型の運用を実現できるかについて説明する。 サービスの監視とインフラの監視 一般的なシステム監視の項目は、多岐にわたって存在する。一例として、‘abc.com’というサービスを提供するサーバー群を図に示す。図1はシステ

    正しいシステム運用のための監視要件定義
  • Oracle 運用術 : これだけでほぼ十分。運用監視スクリプト

    一応こんな感じのレポートがあがって来るというサンプルです。結果は仮想的な環境を想定したもので、内容はでたらめにしてあります。 =================== ora_perf_report.sh 2007/06/11 20:43:48 HostName: dev1 Database: testdb =================== /*---------------------------------------------------------------------------*/ // 最低限必要な shared_pool_sizeの測定 /*---------------------------------------------------------------------------*/ SHARED_POOL_SIZE ---------------- 29

  • 突然ITインフラを任された人のための…監視設計入門 #yapcasia

  • Javaのメモリ領域を監視できるコマンド【jstat, jps】

    jstat という2つのコマンドを使用する現在のJavaのヒープメモリの領域の使用状況がわかります [root@yoshi3 init.d]# service tomcat5 start Starting tomcat5: [ OK ] [root@yoshi3 init.d]# netstat -an | grep 8080 tcp 0 0 0.0.0.0:8080 0.0.0.0:* LISTEN [root@yoshi3 init.d]# jps 10337 Bootstrap 10384 Jps [root@yoshi3 init.d]# jstat -gcutil 10337 1000 S0 S1 E O P YGC YGCT FGC FGCT GCT 0.00 58.12 3.22 44.79 51.70 11 0.022 0 0.000 0.022 0.00 58.12 3.

  • Javaアプリケーションサーバの監視 - Chonaso's Commentary

    渋谷Java第二回で発表した内容のもう少し掘り下げた内容です。 主にUNIX系OSでのJavaアプリケーションサーバ運用を想定しています。 なおJava7以前のVMを取り扱っていますが、Java8においてもPermanent以外はほぼ同様かと思います。 運用フェーズのリソースリーク メトリクスの可視化 JVMの監視観点 各ヒープ領域のサイズと使用量 Full GCの頻度 GCログの解析 ファイルオープン数 ヒープ統計情報 別の可能性:純粋なメモリ不足 リソースリークの結果、危なそうだったら… 運用フェーズのリソースリーク 「​運​用​が​始​ま​っ​て​か​らJavaWebアプリの​リ​ソ​ー​ス​障​害が発​覚​す​る」ということがちょいちょいあります。 特に開発と運用が綺麗に分離されている組織などではエアポケットになりやすい部分かと思います。 もちろんリソースリークの起きないコードを書

    Javaアプリケーションサーバの監視 - Chonaso's Commentary
  • Wgetとメールを使ったお手軽サーバ死活監視

    Wgetとメールを使ったお手軽サーバ死活監視:Windows環境でちょっとした定型業務を自動化する(1/2 ページ) 管理下のWebサーバが止まったら、速やかに管理者の携帯端末へメールで通知する。そんな死活監視システムを、無償のソフトウェア・ツールとバッチ・ファイルを組み合わせて簡単かつ手軽に実現しよう。 連載目次 サーバ管理者が行うべき作業はいくつもあるが、その中でも特に重要なのが「予期せぬサーバの停止」の検出とその対処だろう。いうまでもなくサーバが停止していることが分かったら、なるべく早く復旧に向けて対応しなければならない。そのためには、普段からサーバを継続的に監視しておき、停止などの異常があれば速やかに検出して、管理者に知らせる必要がある。 社内設置のサーバであれば特段の監視体制を用意せずとも、その異常に気付きやすい。距離的にもネットワーク的にも「身近」であり、また周りのスタッフが異

    Wgetとメールを使ったお手軽サーバ死活監視
  • 全自動Zabbix

    JANOG36の「CDNの仕組み」チュートリアルの資料です。 2015年7月15日付(最終)版 サポートページ: https://tech.jstream.jp/blog/meeting/janog36/ やはり、1時間では全て説明しきれませんでした。8月上旬、プライベートセミナとして2時間枠でチュートリアル@東京を開催しようと思っています。ご興味のある方は、twitterで、tech_jstream までご連絡ください。詳細が決まり次第、連絡します。

    全自動Zabbix
  • テンプレートを使った効率的な監視設定

    例えばOSと、Webサーバ、DBサーバ、ファイルサーバなどのアプリケーションの監視設定を1つのテンプレートにまとめたとしましょう。すると、各ホストにテンプレートを適用した後、起動していないサービスなど、不要な監視項目を無効化する必要が生じます。OS基部分のテンプレート、各アプリケーション単位のテンプレート……という形で階層的にテンプレートを作成していくと、使い回しもでき、より効率的でしょう。 オリジナルテンプレートの作成 ZABBIXでは、インストール直後でもいくつかのテンプレートが利用できます。ですが、既存のテンプレートは監視対象となるアプリケーションも限られており、必ずしも監視要件と合うわけではないので、監視要件に合わせて新しくテンプレートを作成する方がよいでしょう。 ここでは、新たにテンプレートを作成し、ホストに適用させる方法について紹介します。 テンプレートの作成は、前回紹介した

    テンプレートを使った効率的な監視設定
  • orabbixでOracleを監視する(設定編) - ksaitoの日記

    Orabbixは、設定ファイルに監視対象のOracleや通知するZabbixサーバの接続情報、監視のためのSQLを設定する必要があります。 設定は、/opt/orabbix/conf/config.propsファイルにkey=value形式の設定ファイルで設定します。 監視のために発行するSQLSQLの結果をモニタするZabbixのアイテムは名前ベースのマッピングとなるので最初に動かすときには関係が分かりづらいです。 OrabbixでOracleを監視する場合のサーバとソフトウェアの設定の関係を書いてみました。(これも分かりやすいかどうか微妙ですが...) 接続情報の設定 通知先のZabbixサーバ /opt/orabbix/conf/config.propsファイルにZabbixサーバの接続情報を設定します。 下記のようにZabbixServerListに任意の名前を定義します。 名前

    orabbixでOracleを監視する(設定編) - ksaitoの日記
  • 私がMuninに恋する理由 - インフラエンジニアでも監視がしたい! -

    7. \ / 私は誰? \ 丶 i. | / ./ / \ ヽ i. .| / / / \ ヽ i | / / / \ -‐ Zembutsu Masahito ー __ わ た し で す -- • 前佛 雅人 @zembutsu 二 / ̄\ = 二  ̄. | ^o^ |  ̄ -‐ \_/ ‐- – Solutions Engineer ( 萌えるSE ) / • インフラエンジニア的な仕事メイン / ヽ \ • 株式会社リンク at+link サービス開発部 ( http://www.at-link.ad.jp/ ) / • “技術者に安心と休息を” 提供するサービス追求(運用/監視/自動化) 丶 \ / / / | i, 丶 \ / / / | i, 丶 \ – オープンソース系・クラウド系コミュニティ活動 • http://pocketstudio.jp/log3/ – 主な職歴

    私がMuninに恋する理由 - インフラエンジニアでも監視がしたい! -
  • 1