[B! monitoring] etakahaのブックマーク

Micrometer入門 #javaq / introduce-to-micrometer

Javaコミュ＠福岡勉強会1910 での発表資料です https://javaq.connpass.com/event/147444/

etakaha 2019/10/09

monitoring

リンク

監視について思うとこ - y-ohgi's blog

TL;DR 監視はユーザーにサービスを提供できているかを観測するための行為 SLI/SLOを定めて、SLOを守れるようにモニタリングするダッシュボードは定常的に表示しておくものと障害時に活用するものを作ると良いアラートはレベル分けして人間が対応しなければならないものだけ人間へ通知する監視とはサービスを健全に動作させ続けるために監視を行います。「健全に動作している」の定義はサービスによって異なり、ユーザーにWebページを見せることができることだったり、バッチが正常に終了することだったりします。最終的にユーザーに正常にサービスを提供できていることを観測するために行うことに変わりはありません。さてユーザーにサービスを提供するために何を監視しましょうか？クラウド前提であれば個人的にリソースベース（CPU/Memory）より、 SLI/SLOをベースに監視する事が望ましいと考えてい

etakaha 2019/09/11

monitoring

リンク

マイクロサービスの運用・管理 - Oracle Cloud Hangout Café #2 - Speaker Deck

Oracle Cloud Hangout Cafe #2 マイクロサービスの運用・監視 Istio Prometheus Grafana Jaeger Kiali （資料の日付が2018年になってますが、正しくは2019年です）

etakaha 2019/01/28

リンク

Micrometer/Prometheusによる大規模システムモニタリング #jsug #sf_26

「Spring Fest 2018」で発表した資料です。 http://springfest2018.springframework.jp/ Read less

etakaha 2018/11/19

monitoring

リンク

Prometheusによる数百台規模のモニタリングで直面した問題について | GREE Engineering

インフラの反田 (@mtanda) です。 GREEでは、多くのサービスをAWS環境で運用しており、それらサービスのモニタリングシステムとしてPrometheusを利用しています。 Prometheusを導入してから約2年がたち、1台のPrometheusで数百台規模のインスタンスをモニタリングするなかで、さまざまな問題に直面しました。それら問題の原因を分析し、設定や利用の仕方を改善することで、ある程度安定して運用できるようになりました。これらの知見が少しでもお役に立てばと思い、ここで共有いたします。なお、対象とするPrometheusのバージョンは1.xです。Prometheus 2.0では、これら問題のほぼ全てに対して改善されています。そのため、2.0でどういった点が改善されているかを知るためにも有用だと思います。 Prometheusのストレージ実装の基礎知識 Promethe

etakaha 2017/12/18

monitoring

リンク

jjug ccc 2017 spring ccc_g1

Comment nous avons transf ormé les Restos du Coeur en Cloud Provider

etakaha 2017/05/21

"非機能要件とSpring Boot"

リンク

SNS mixi の障害察知手法の進化

WebQA Meeting Vol.2 https://peraichi.com/landing_pages/view/webqa-2

etakaha 2016/09/19

monitoring

リンク

知らないなんてもったいない！障害発生の原因を洗い出すOSSのJavaVM解析支援ツール「HeapStats」を使ってみよう

避けるべき状況ですが、残念なことにこのようなことは珍しくありません。解析に必要な情報を漏らさず取得するためには、サービス開始前に入念な準備が必要ですが、現実にはそこまで時間をかけられない場合もあり、往々にして準備不足となる場合があるからです。こういった不幸な状況を防ぐ手段の1つとして、本稿では「HeapStats」というツールを利用した障害解析方法を紹介します。 HeapStatsとは「HeapStats」は、NTT OSSセンタが開発を行い2013年にOSS（オープンソースソフトウェア）として公開したJavaVM障害解析支援ツールです。 Javaアプリケーションにおけるメモリ不足（OutOfMemoryError）やデッドロックといった障害を素早く解決することを目的として開発されました。特に、Javaヒープメモリ内の状態など、従来は高い負荷をかけて取得する必要があった情報を、低オーバ

etakaha 2014/12/20

リンク

https://qiita.com/inokappa/items/0932bb74a3b0883137e4

etakaha 2014/11/16

リンク

Jolokia - Overview

It is fast, simple, polyglot and has unique features. It's JMX on Capsaicin. Jolokia is a JMX-HTTP bridge giving an alternative to JSR-160 connectors. It is an agent based approach with support for many platforms. In addition to basic JMX operations it enhances JMX remoting with unique features like bulk requests and fine grained security policies. Overview of features which make Jolokia unique fo