[B! 監視] marujunjunのブックマーク

失敗を学びに変える「障害報告書」の書き方 ─ RettyのCTOがGoogleで学んだ「問題を隠さない文化」 - エンジニアHub｜Webエンジニアのキャリアを考える！

失敗を学びに変える「障害報告書」の書き方 ─ RettyのCTOがGoogleで学んだ「問題を隠さない文化」人間は失敗するものです。エンジニアもまたしかり。Retty株式会社の樽石CTOが考える、失敗を学びに変える考え方とノウハウを紹介します。はじめまして。Retty株式会社でCTOを務める樽石将人（ @taru0216）です。Rettyにおける技術の責任者として不確実性の高いシステム開発を成功に導くよう牽引したり、メンバーが働きやすくなるような仕組みづくりを行ったりしています。子供の頃からパソコンに親しみ、新卒一期生でレッドハットに就職して、Rettyに入社するまでGoogleや楽天を経てきました。エンジニアとして活動して約30年。日々失敗し続けていますし、過去には大規模サービスを止めてしまったこともあります。人間である以上、バグやエラーは必ず起こるもの。エンジニアは失敗を繰り返

marujunjun 2019/09/16

リンク

Windowsのログ管理ツールをJPCERT/CCが公開、サイバー攻撃の挙動調査に役立つ：Windows用ツールを分かりやすくする - ＠IT

Windowsのログ管理ツールをJPCERT/CCが公開、サイバー攻撃の挙動調査に役立つ：Windows用ツールを分かりやすくする JPCERT/CCは、Windowsのログ収集ツール「Sysmon」のログを管理、分析するツール「SysmonSearch」を公開した。複数のWindows端末のログを一元管理でき、監視ルールに基づいて定期的に検索する機能も備える。 JPCERTコーディネーションセンター（以下、JPCERT/CC）は2018年9月6日、Microsoftが提供するWindowsのログ収集ツール「Sysmon」が出力するログを管理、分析するツール「SysmonSearch」を公開した。サイバー攻撃を受けたときなどに、複数の端末のログを一元的に管理し、分析できる。GitHubからダウンロード可能だ。 Sysmonは端末上で動作したアプリケーションの情報やレジストリエントリの作成、

marujunjun 2018/09/11

リンク

Zabbix概論

Kubernetesの良さを活かして開発・運用！Cloud Native入門 / An introductory Cloud Native #osc19tk

marujunjun 2017/04/12

リンク

Office 365の監視とトラブル解決に使えるツール

今回は、「Office 365」の運用管理作業において避けて通れない、監視とトラブルシューティングを解説する。連載目次クラウドといえども、監視は必要「Office 365」はクラウドのサービスであるため、基本的にはサーバー機器の監視や故障対応といった運用管理作業やコストは不要だ。しかし、企業でOffice 365を利用している場合、運用管理者はサービスが正常に稼働しているかどうか、メッセージの配信に問題がないかどうかなどは常に把握しておく必要があるだろう。もし、何かトラブルがあった場合には、企業の信用やビジネスに影響が及ぶ可能性があるからだ。そこで今回は、次の二つの観点からOffice 365の監視とトラブルの解決方法を見ていこう。サービス稼働状況の確認接続およびメッセージ配信状況の確認サービス稼働状況の確認まずは、Office 365のサービス稼働状況を確認する三つの方法

marujunjun 2017/01/30

リンク

AWS障害状況をZabbixで監視 - ike-dai's blog

AWSで発生している障害状況をモニタリングするには、AWS Health Dashboardというサイトがあります。ここでは、各リージョンの各サービス毎に障害が発生していないかの情報を発信しています。サービスが利用不可になっている状態のお知らせだけでなく、パフォーマンス劣化が発生している状況なども発信しています。 AWS上でサービス運用している方にとって、ここで公開される情報は結構重要です。いち早く何が起こっているのかに気付くためにもこのサイトの情報は常にチェックしておきたいところです。しかし、このサイトの最新情報を知るには、ブラウザでこのサイトを確認するか、RSSで配信される情報をチェックするしかありません。何かあればプッシュ型で通知して欲しいところではないでしょうか。そこで、このサイトの情報をZabbixで集約し、障害が発生した場合にアラートを上げれるようにしてみます。実

marujunjun 2017/01/30

リンク

次世代監視の大本命！ Prometheus を実運用してみた - Qiita

こんにちは！freeeでインフラゾンビをやっている @sugitak です。ゲームではレベルを上げて物理で殴る派です。 freee ではたまにインフラエンジニアの数が減るのですが、その減ったインフラエンジニアはインフラゾンビへと進化し、社内を闊歩します。インフラゾンビは主に開発チームに所属して、アプリっぽいインフラの仕事をインフラからアプリ側へと持っていきます。デプロイとか、Dockerとか、Jenkinsとかの、いわゆる DevOps 系のところですね。こうすることで開発者は手を出せるものの自由度が増えるし、インフラはより本来のインフラとして純度を上げていける、 so, win-win ってわけです。さて、そんなわけで監視です。freee Engineers Advent Calendar 2016の9日目の記事として、 Prometheus による監視が最高なのでみんなもっと使おうと

marujunjun 2016/12/09

リンク

nobodyonsecurity.com -

marujunjun 2016/10/03

リンク

http://techblog.hilife-jp.info/2012/12/jmx-java-monitoring/

marujunjun 2016/05/17

リンク

03_02_特集.indd

NTT 技術ジャーナル 2014.3 15 特集 IT基盤のTCO削減に寄与するオープンソースソフトウェア活用推進技術 HeapStats開発のねらい NTT OSSセンタでは，Java＊ 1 に関する技術支援の一環として，お客さまから寄せられる障害解析依頼に対応していますが，これらの依頼の中には，事象発生時に取得できた情報では不十分で，すぐに調査や解析を行えない場合があります．そのような場合は，お客さまに情報の再取得を依頼しますが，事象の発生頻度が低い場合などでは，再現ならびに情報取得に非常に多くの時間を要します．また，ヒープダンプ＊ 2 など従来の解析で必要とした情報は，取得時にシステムにかける負荷が大きく，かつ出力するファイルサイズも巨大なため，運用中のシステムでは取得が難しい場合も多くあります．ヒープダンプが取得できないときは，テキストファイルであ

marujunjun 2015/06/17

リンク

Java技術最前線「JMXでソフトの健康をがっちり管理」第4回　JVMを監視する

先週，試しにアクセスしてみたMXBeanはすべてJSR-174 Monitoring and Management Specification for the Java Virtual Machineで定義されたものです。このJSR-174はシステムの運用・保守においてきわめて重要なAPIだと筆者は確信しています。システムの運用中に，メモリーの使用状況やスレッド間のデッドロックの有無，CPUの使用量などをモニタリングできるということは，管理業務を行う人にとってどれほど手助けになるでしょうか。特に，24時間，週7日間ノンストップで動作するようなシステムではなおさらです。幸いにもJavaで構築されたシステムはすべてJVM上で動作します。つまり，メモリー使用量などの管理に必要な情報を取得するために独自に作り込む必要はまったくなく，JVMに仕込まれたMXBeanを使えば簡単に取得できるので

marujunjun 2015/06/17

リンク

正しいシステム運用のための監視要件定義

前回までの内容で、運用のあり方が見えてきたところで、より技術的な内容について、話を具体化していこう。システム運用において、どのようなシステムでも必ず必要になってくるのが、「監視」である。監視が何のために必要かというと、それは、システムのサービス継続性を維持するためである。ここでは、必ず必要となる監視の要件定義に、焦点を当てて見ていく。システムに適した監視を成功させるためのカギは、サービス継続性とは何であるかを考え、数ある監視ポイントの中で、どのようにシステムに適合した監視項目を策定するか、である。以降では、システムで必ず必要となる監視項目の定義を、どのように進めれば21世紀型の運用を実現できるかについて説明する。サービスの監視とインフラの監視一般的なシステム監視の項目は、多岐にわたって存在する。一例として、‘abc.com’というサービスを提供するサーバー群を図に示す。図1はシステ

marujunjun 2015/06/05

リンク

Oracle 運用術：これだけでほぼ十分。運用監視スクリプト

一応こんな感じのレポートがあがって来るというサンプルです。結果は仮想的な環境を想定したもので、内容はでたらめにしてあります。 =================== ora_perf_report.sh 2007/06/11 20:43:48 HostName: dev1 Database: testdb =================== /*---------------------------------------------------------------------------*/ // 最低限必要な shared_pool_sizeの測定 /*---------------------------------------------------------------------------*/ SHARED_POOL_SIZE ---------------- 29

marujunjun 2014/12/04

リンク

突然ITインフラを任された人のための…監視設計入門 #yapcasia

marujunjun 2014/08/30

監視

リンク

Javaのメモリ領域を監視できるコマンド【jstat, jps】

jstat という2つのコマンドを使用する現在のJavaのヒープメモリの領域の使用状況がわかります [root@yoshi3 init.d]# service tomcat5 start Starting tomcat5: [ OK ] [root@yoshi3 init.d]# netstat -an | grep 8080 tcp 0 0 0.0.0.0:8080 0.0.0.0:* LISTEN [root@yoshi3 init.d]# jps 10337 Bootstrap 10384 Jps [root@yoshi3 init.d]# jstat -gcutil 10337 1000 S0 S1 E O P YGC YGCT FGC FGCT GCT 0.00 58.12 3.22 44.79 51.70 11 0.022 0 0.000 0.022 0.00 58.12 3.

marujunjun 2014/08/29

java
監視

リンク

Javaアプリケーションサーバの監視 - Chonaso's Commentary

渋谷Java第二回で発表した内容のもう少し掘り下げた内容です。主にUNIX系OSでのJavaアプリケーションサーバ運用を想定しています。なおJava7以前のVMを取り扱っていますが、Java8においてもPermanent以外はほぼ同様かと思います。運用フェーズのリソースリークメトリクスの可視化 JVMの監視観点各ヒープ領域のサイズと使用量 Full GCの頻度 GCログの解析ファイルオープン数ヒープ統計情報別の可能性：純粋なメモリ不足リソースリークの結果、危なそうだったら… 運用フェーズのリソースリーク「運用が始まってからJavaWebアプリのリソース障害が発覚する」ということがちょいちょいあります。特に開発と運用が綺麗に分離されている組織などではエアポケットになりやすい部分かと思います。もちろんリソースリークの起きないコードを書

marujunjun 2014/08/29

監視
java

リンク

Wgetとメールを使ったお手軽サーバ死活監視

Wgetとメールを使ったお手軽サーバ死活監視：Windows環境でちょっとした定型業務を自動化する（1/2 ページ）管理下のWebサーバが止まったら、速やかに管理者の携帯端末へメールで通知する。そんな死活監視システムを、無償のソフトウェア・ツールとバッチ・ファイルを組み合わせて簡単かつ手軽に実現しよう。連載目次サーバ管理者が行うべき作業はいくつもあるが、その中でも特に重要なのが「予期せぬサーバの停止」の検出とその対処だろう。いうまでもなくサーバが停止していることが分かったら、なるべく早く復旧に向けて対応しなければならない。そのためには、普段からサーバを継続的に監視しておき、停止などの異常があれば速やかに検出して、管理者に知らせる必要がある。社内設置のサーバであれば特段の監視体制を用意せずとも、その異常に気付きやすい。距離的にもネットワーク的にも「身近」であり、また周りのスタッフが異

marujunjun 2013/07/18

リンク

全自動Zabbix

20201028 AWS Black Belt Online Seminar Amazon CloudFront deep dive

marujunjun 2013/05/06

リンク

テンプレートを使った効率的な監視設定

例えばOSと、Webサーバ、DBサーバ、ファイルサーバなどのアプリケーションの監視設定を1つのテンプレートにまとめたとしましょう。すると、各ホストにテンプレートを適用した後、起動していないサービスなど、不要な監視項目を無効化する必要が生じます。OS基本部分のテンプレート、各アプリケーション単位のテンプレート……という形で階層的にテンプレートを作成していくと、使い回しもでき、より効率的でしょう。オリジナルテンプレートの作成 ZABBIXでは、インストール直後でもいくつかのテンプレートが利用できます。ですが、既存のテンプレートは監視対象となるアプリケーションも限られており、必ずしも監視要件と合うわけではないので、監視要件に合わせて新しくテンプレートを作成する方がよいでしょう。ここでは、新たにテンプレートを作成し、ホストに適用させる方法について紹介します。テンプレートの作成は、前回紹介した

marujunjun 2012/12/26

リンク

orabbixでOracleを監視する（設定編） - ksaitoの日記

Orabbixは、設定ファイルに監視対象のOracleや通知するZabbixサーバの接続情報、監視のためのSQLを設定する必要があります。設定は、/opt/orabbix/conf/config.propsファイルにkey=value形式の設定ファイルで設定します。監視のために発行するSQLとSQLの結果をモニタするZabbixのアイテムは名前ベースのマッピングとなるので最初に動かすときには関係が分かりづらいです。 OrabbixでOracleを監視する場合のサーバとソフトウェアの設定の関係を書いてみました。（これも分かりやすいかどうか微妙ですが...）接続情報の設定通知先のZabbixサーバ /opt/orabbix/conf/config.propsファイルにZabbixサーバの接続情報を設定します。下記のようにZabbixServerListに任意の名前を定義します。名前