イベント名: オブザーバビリティ再入門 - 大切さと高め方を知ろう! イベントURL: https://mackerelio.connpass.com/event/316449/ 概要: 可観測性の概念を理解し、OpenTelemetryなどの実装に必要な道具があっても、自分たちのプロダクトやチームにどう適用させていけばよいのかは、自分たちで考え、設計しなければなりません。開発チームがメトリクス、ログ、トレースをどういった基準で採用していくかについて、具体例を用いながらお話します。
![メトリクス、ログ、トレースをうまく使い分けて可観測性を高めよう!](https://cdn-ak-scissors.b.st-hatena.com/image/square/f851456ddbc24ce89418a3ecad99a2619aa22dac/height=288;version=1;width=512/https%3A%2F%2Ffiles.speakerdeck.com%2Fpresentations%2F8f947b0101cf480ba361b8905345b0e9%2Fslide_0.jpg%3F30473167)
クラウド対応のログ可視化ツールとして知られる「Grafana」や監視システム「Prometheus」などを開発し提供するGrafana Labsは、障害発生時に担当者へのオンコールを自動化できるオンコールマネジメントソフトウェア「Grafana OnCall」をオープンソースで公開したことを明らかにしました。 Introducing the newest member of our open source family: Grafana OnCall OSS brings on-call management to the open source community #grafanaconline #oncallmanagement https://t.co/Nkq8frQx2r — Grafana (@grafana) June 14, 2022 Grafana OnCallは、昨年(2
はじめまして、Progateの村山です。 本記事はProgateAdventCalendarの2日目の記事です。 普段はSREチームでProgateの開発や運用を支える仕事をしております。Progateには今年の7月に入社しました。前職はElixirやk8sなどを使ったWebアプリケーションの開発や運用をしていました。ProgateにElixirのコースを作るのがちょっとした野望です。 本稿ではサービスや開発のモニタリングについて紹介しようと思います。 モニタリングとは モニタリングは日本語で監視と言い、主にサービスの障害検知や可用性向上のために利用されています。ここで紹介するモニタリングは大きく2種類に分類したいと思います。 1つ目は死活監視するためのモニタリングで、サービスやアプリケーションの可用性監視し、必要に応じてフェイルオーバーさせたりアラートを飛ばして開発者へと共有します。 2
コンピューターの通信をキャプチャするソフトウェアとしては「Wireshark」が有名ですが、Wiresharkは大規模なネットワークの通信を常時キャプチャして表示するのは得意ではありません。無料でオープンソースの「Moloch」は、大規模なネットワークで通信を常時監視し、わかりやすく表示するのに適したソフトウェアです。 Moloch https://molo.ch/ 記事作成時点ではCentOS 6/7/8、Ubuntu 16.04/18.04向けにコンパイル済みのパッケージが提供されているので、今回はUbuntu 18.04にMolochをインストールしてみます。 Molochは検索エンジンのElasticsearchを使用するため、Elasticsearchも準備しておく必要があります。今回はMolochが動作するサーバー上にDockerコンテナとしてElasticsearchを構築し
Dockerはコンテナ化のための最も一般的なツールの1つであり、Dockerコンテナの内部で何か問題が起きていないかを監視するために、オープンソースコミュニティによっていくつかのツールが開発されています。 このガイドでは、そのうちの1つのツールであるcAdvisorに焦点を当てています。:cAdvisor なぜDockerコンテナを監視する必要があるのか? 監視により、ソフトウェアの状態に関する重要な情報を収集できるため、開発チームは製品を改善する方法を見つけることができます。 各コンテナは自己完結型のシステムであるため、監視はさらに不可欠です。 コンテナの監視には、各コンテナの使用状況の測定値を記録して監視システムに報告することが含まれます。 このようにして、バグの検出とアプリケーションの改善を確実にし、総合的なパフォーマンスと堅牢性を向上させます。 コンテナの監視にcAdvisorを使
先日のAmazon SQSの障害には色々と肝を冷やした人も多いのではないでしょうか。 classmethod.jp 今回のようなケースとは別に障害は大小あれど、みなさん日々戦っていることだと思います。 障害対応はエンジニアの花形であるものの、サービスに対する知識やソフトウェアの知識など経験と技術の両方が必要です。 そのため、どうしてもトラブルシューティングはエースエンジニアなどの一部の人に依存してしまう…などの問題が発生しがちです。 そこで今日は私の経験から障害対応のいろはを書いて行きたいと思います。 今回のスコープの外 実際に障害時の具体的な対応、例えば障害切り分けやRDBMSのボトルネックの探し方などの話はしません。 まずissueを作ると良い 本題です。 トラブルを認知したらまずはissueを作りましょう。 issueを作るときはtemplateが事前に設定されていると便利です。 g
皆さんこんにちは。虎の穴ラボのM.Uです。 今回は、オライリー・ジャパンの『入門 監視』を読んでみましたので、感想を書きたいと思います。 はじめに 以前に私はあるプロダクトの、監視体制強化に取り組んだことがあります。その際、ネットや書籍での情報を断片的に拾い集め四苦八苦しながら「このシステムにはこういう監視があるべき」と自分なりに答えを導き出していました。そんな体験をした私にとってこの「入門監視」はまさに「こんな本が欲しかった」と思える本でした。 本記事の書評は、監視についてのノウハウが知りたい開発者の視点となります。同じ経験をされた開発者の方に少しでも参考になれば幸いです。 本書について 著者 Mike Julian(マイク・ジュリアン) 翻訳 松浦 隼人 これ以降は私自身が特に印象に残った章を抜粋して紹介します。より詳しく本書の構成を知りたい方は、オライリー公式サイトにて目次が公開され
2018年1月9日(火)、新年一発目のイベントとして、恵比寿にて以下の勉強会に参加してきました。 新定番!Ansible とZabbixで実現する次世代運用管理 - connpass AnsibleもZabbixもトーシローの自分ですが、それぞれの良いところを撚り合わせた非常に内容の濃い勉強会で、ぶっちゃけむっちゃ楽しかったので、その様子をお届けいたします。 __ (祭) ∧ ∧ Y ( ゚Д゚) Φ[_ソ__y_l〉 Ansible,Zabbixダワッショイ |_|_| し'´J レッドハット様提供の会場の様子 会場は、レッドハット株式会社様提供の恵比寿ネオナート5階セミナー会場。定員が80名だけあって、なかなかの広さです。 受付にはお菓子が!ありがたい。早めに着いたので沢山ありました。空気を読まずに5個ほどつかみ取り。 会場手前入口付近にAnsibleTシャツプレゼントコー
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く