全AWSエンジニアに捧ぐ、CloudWatch 設計・運用 虎の巻 / CloudWatch design and operation bible
はじめまして。開発部のid:guitarrapc_tech です。 今回、黒騎士と白の魔王を例にモニタリングをどのようにしているのか、どのように考えてサービス監視を行っているのか紹介したいと思います。 目次 目次 モニタリング モニタリングの不足 CBT で気づいたモニタリング不足 モニタリングサービスの要件と選定 モニタリングの分類 モニタリングをレイヤー分けして可視化する 1. サービスの全般的な状態 2. アプリケーションと相互関係にあるリソース状態 3. アプリケーションの詳細なメトリクス状態 4. 各ロールの詳細メトリクス イベント アラート まとめ 参考 モニタリング 「黒騎士と白の魔王」の開発からリリースにかけて、大きな課題であり続けたのが「どのようにサービスのモニタリングを行うか」でした。ここでいうモニタリングは、次の意味を持たせています。 役割 意味 現状把握 サービスが
NewRelic / Elasticsearch ではじめるSREに必要な性能監視入門 https://supporterzcolab.com/event/177/ にて話した資料です!
はじめに はてなサマーインターン2017の大規模システムコースの成果報告をします。 今年の大規模システムコースではメンターのid:masayoshiさんとid:y_uukiさんの下、自律分散監視システムとそれを利用したネットワークグラフの可視化に取り組みました。自律分散監視システムでは単純なクラスタリングによる死活状況の確認だけではなくアプリケーションレベルの疎通確認を行えるものを実現しました。またどのようにしてクラスタを形成するかという問題に取り組む内に、サービス間のネットワーク上のつながりを取得できるようになり、その情報でサーバー間の関係性の可視化を行いました。この記事では、それらの詳細を説明します。 はじめに 自律監視システムの実現 中央サーバー型の監視システム 自律分散監視システム アプリケーションレベルの相互監視 どうやってクラスタを形成するか? 実験 ネットワークグラフの可視化
こんにちは!freeeでインフラゾンビをやっている @sugitak です。ゲームではレベルを上げて物理で殴る派です。 freee ではたまにインフラエンジニアの数が減るのですが、その減ったインフラエンジニアはインフラゾンビへと進化し、社内を闊歩します。インフラゾンビは主に開発チームに所属して、アプリっぽいインフラの仕事をインフラからアプリ側へと持っていきます。デプロイとか、Dockerとか、Jenkinsとかの、いわゆる DevOps 系のところですね。こうすることで開発者は手を出せるものの自由度が増えるし、インフラはより本来のインフラとして純度を上げていける、 so, win-win ってわけです。 さて、そんなわけで監視です。freee Engineers Advent Calendar 2016の9日目の記事として、 Prometheus による監視が最高なのでみんなもっと使おうと
新しい監視ツールとして開発途上の Prometheus 概要と、インストール・設定方法、そして複数サーバのCPUやメモリ情報を参照したり、Docker コンテナ情報の取得方法、そしてアラートの確認の仕方を調べました。実際使い始めるまで少々とまどった所もあり、Prometheus を知りたい方、使いたい方向けに、ここで共有します。 ■ Prometheus とは? Prometheus(プロメテウス)は、オープンソースのサービス監視システムと時系列データベースであり、要は監視ツールです。先月末にバージョン 0.1.0 が公開され、目下開発が進んでいます。開発は、音楽のソーシャル・プラットフォームを展開しているSoundCloud社によって2012年から行われ、数千ものサーバを管理することが目的でした。現在はGitHub上で公開されています。開発言語は Go です。 ■ これまでの監視ツールと
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く