タグ

監視に関するwkubotaのブックマーク (16)

  • 継続は力なり

    タダです. Aurora を複製時に EventBridge ルールで特定 Aurora クラスターと DB インスタンスの作成タイミングを検知して Step Functions に処理させたいと思って,EventBridge ルールでワイルドカードを使ってみたので備忘録にまとめます. EventBridge ルールのワイルドカード Aurora のイベントの中で拾えるもの まとめ 関連記事 EventBridge ルールのワイルドカード EventBridge ルールのワイルドカードサポートは2023年10月に行われたもので,今回 Aurora を複製した時に特定の Aurora のイベントを拾って Step Functions で処理させたいと思ったのがきっかけで利用してみました. aws.amazon.com Aurora のイベントの中で拾えるもの Aurora のイベントとして拾

    継続は力なり
  • オブザーバビリティ研修実践編

    株式会社サイバーエージェント AI事業部 2024年度エンジニア新卒研修 オブザーバビリティ研修実践編(一部社内向けの内容)

    オブザーバビリティ研修実践編
  • 事例から学ぶクラウドへのOpenTelemetry導入のハマりどころ - ヘンリー - 株式会社ヘンリー エンジニアブログ

    ヘンリーでSRE / SDETをしているsumirenです。 この記事は株式会社ヘンリーAdvent Calendar 2023の9日目の記事です。昨日は id:nabeop の カジュアルな社内勉強会 : ギベンの紹介 という記事でした。 背景 ヘンリーでは分散トレーシングにOpenTelemetryを用いています。元々、ログはCloud Runの標準出力をCloud Loggingが拾ってくれるものを見ており、メトリクスもCloud Runがマネージドで取得してくれるものを見ていました。しかし、オブザーバビリティを高め、また民主化するためには、トレースを起点にメトリクスやログなど全てのシグナルを追えるべきだと考え、OpenTelemetryを導入しました。 ローカルでいくつかのマイクロサービスとOpenTelemetry Collectorを立ち上げ、Jaegerで分散トレースを追える

    事例から学ぶクラウドへのOpenTelemetry導入のハマりどころ - ヘンリー - 株式会社ヘンリー エンジニアブログ
  • OpenTelemetryをざっくり学んだ - yigarashiのブログ

    OpenTelemetryについての情報を見聞きする頻度がどんどん上がっており、各種サーバー監視サービスやクラウドでも対応が進んでいることから、そろそろ自分の引き出しに入れたいと感じました。概要を自分で説明できるくらいを目指してざっくり学んだログを自分用に残します。 OpenTelemetryとは opentelemetry.io 公式トップページにある以下が全てを物語っているとは思います。メトリック、ログ、トレースはお馴染みのObservability三銃士ですね。 OpenTelemetry is a collection of APIs, SDKs, and tools. Use it to instrument, generate, collect, and export telemetry data (metrics, logs, and traces) to help you

    OpenTelemetryをざっくり学んだ - yigarashiのブログ
  • 【開催報告 & 資料公開】AWS 秋の Observability 祭り | Amazon Web Services

    Amazon Web Services ブログ 【開催報告 & 資料公開】AWS 秋の Observability 祭り こんにちは。ソリューションアーキテクト (以下 SA) の高野です。 2023 年 9 月 22 日に「AWS 秋の Observability 祭り」と題したイベントを開催しました。昨今システムを運用する上で重要となってきている Observability をテーマにしたイベントです。ご参加いただきました皆様には、改めて御礼申し上げます。 当日の様子と実施内容 AWS から Amazon CloudWatch をはじめとする Observability 関連サービスの最新アップデートやベストプラクティス、Observability のコード化のメリットをお伝えするとともに、実際に AWS 上のシステムを運用されているお客様 (株式会社 NTTドコモ様、株式会社デイトナ

    【開催報告 & 資料公開】AWS 秋の Observability 祭り | Amazon Web Services
  • 運用出来るWebアプリケーションの作り方

    はじめに 先日、下記のようなツイートを見つけて、そういえば趣味個人開発してたときには然程気にしてなかったけど、仕事で運用するようになって先輩たちから学んだり自分で身につけたチップスってちょこちょこあるよねー、とふと思ったので、Webアプリケーション開発に関わるものをいくつかまとめてみました。 特に体系的/網羅的という程でもないですし、最近はFWや色々な仕組みでカバーされてるものも多いですが備忘録として。 Tips 機械が読めるログを作る これは割と重要なのですが、ログは人間が読むものではなく機械が読むものです。それはZabbixだったりDatadogだったりSplunkだったりgrep/awkだったりツールは何でも良いのですが、古の時代はさておき現代ではログは機械が読めることが最重要です。 まず大前提として構造化されている必要があります。言うまでもないですが「フリーフォーマット」のログの

    運用出来るWebアプリケーションの作り方
  • 🔭 RustでOpenTelemetryをはじめよう | Happy developing

    記事ではRustでOpentelemetryをはじめることを目標に以下の点について書きます。 OpenTelemetryの概要RustのapplicationにOpenTelemetryを導入する方法前半は公式docを読みながら登場人物を整理し、後半は実際にdocker-compose上でそれらを動かします。 またRustではtracing-opentelemetry crateを利用します。 tracingについては別の記事で基的な仕組みについて書いたのでopentelemetry固有の処理について述べます。 sample code traceの設定については、別の記事に詳しい説明を書きました。 OpenTelemetryとは最初にOpenTelemetryについての現時点での自分の理解は以下です。 OpenTelemetryとは文脈により以下のいずれかを指す CNFNのprojec

    🔭 RustでOpenTelemetryをはじめよう | Happy developing
  • Datadogを使った分散トレーシングをクラウド会計で見えるようにした話 - Money Forward Developers Blog

    こんにちは。マネーフォワードでエンジニアとして働いている @sters です。普段は別の会社でフルタイム勤務していて、他の時間で マネーフォワード クラウド会計(以下、クラウド会計) のメトリクスやトレースを眺め、パフォーマンス改善をしています。 なぜ分散トレーシングが必要なのか マネーフォワードでは、マイクロサービスアーキテクチャを採用した開発を進めており、多くのサービスが連携してプロダクトとその価値をユーザに届けています。詳しくはこちらの記事でどうぞ。 マネーフォワードのSRE、インフラエンジニア組織のこれから | Money Forward Engineers' Blog 1つのサービスで1つのプロダクトを届けていたこれまでの形では、何かしらのエラーが発生したり、レイテンシが上昇するなどの問題が起きたときに、自分たちの実装やデータ、インフラストラクチャを気にするだけで十分でした。 し

    Datadogを使った分散トレーシングをクラウド会計で見えるようにした話 - Money Forward Developers Blog
  • Datadog メトリクスモニター作成入門

    Datadog はモニタリング関連の SaaS ではおそらく最も利用されているサービスでしょうが、公式ドキュメントが豊富にある割には何から読み始めれば良いかわかりにくく、慣れるまでの道が険しい印象です。 エントリーでは、Datadog が既に導入されている組織で、Datadog モニターを使って監視をしたいけど、モニターの設定方法がよくわからないといった方を対象に、メトリクスモニターの作成に焦点を絞って解説していきます。なお、あくまで Datadog の使い方についての解説であり、どのようなモニターを設定すべきかについては触れません。 メトリクスの収集についても触れたかったんですが、力尽きたので、メトリクスの収集については気が向いたら別エントリーを書きます。 アジェンダ メトリクスモニターの作成方法の基 クエリの定義について クエリの評価期間・評価方法・アラート条件の指定 クエリの結果

    Datadog メトリクスモニター作成入門
  • Datadogの活用ノウハウを一挙に公開・それを支える全社管理者の工夫とは #datadog_japan_meetup - ZOZO TECH BLOG

    こんにちは。ECプラットフォーム基盤SREブロックの高塚と巣立(@tmrekk_)です。 ZOZOTOWNはクラウド化・マイクロサービス化を進める中で、監視SaaSのDatadogを採用しました。この数年で多くの知見が蓄積され、今では様々なシーンでDatadogを活用しています。この記事ではそのノウハウを惜しみなく公開します。 ※記事は、先日開催されたDatadog Japan Meetup 2022 Summerにて発表した内容を書き起こして再構成したものです。 当日の発表資料 speakerdeck.com 目次 当日の発表資料 目次 はじめに マイクロサービス基盤に必要な監視の要件 第1部 ZOZOTOWNにおけるDatadogの活用 1. どこで障害が起こっているのか分からない → APM 2. アラートやダッシュボードや外形監視が欲しい → Monitors, Dashboar

    Datadogの活用ノウハウを一挙に公開・それを支える全社管理者の工夫とは #datadog_japan_meetup - ZOZO TECH BLOG
  • OpenTelemetryについての現状まとめ (2020年6月版) - YAMAGUCHI::weblog

    はじめに こんにちは、StackdriverあらためGoogle Cloud Operations担当者です。ここ最近は業務でOpenTelmetry関連をほそぼそとやってきたんですが、ようやくOpenTelemetryも安定版リリースのめどが立ってきたので、これまでと現状と今後を簡単にまとめておこうと思って書き始めたら、全然簡単じゃなくて10000文字超えました。(なおこのシリーズは今後も続きそうな気がするのでタイトルに日付を振っておきました) TL;DR 分散トレースとメトリクスの計装フレームワークとしてOpenTelemetryというものがCNCF Sandboxプロジェクトとして進行中。これはOpenTracingとOpenCensusのマージプロジェクトであり、各々の正式な後継版である。 とはいうものの、まだ仕様もstableリリースになっておらず、当然各言語向けのライブラリも安

    OpenTelemetryについての現状まとめ (2020年6月版) - YAMAGUCHI::weblog
  • オンコールアラートアンチパターン - ださろぐ@はてな

    オンコールアラートを設定しようと考えた際に考慮すべき点を自分なりにアンチパターンとしてまとめたなにかです。 ホワイトボックスモニタリングにより得られたメトリクス、ログなどからアラーティングを行う、または併用する環境を想定しています、ブラックボックスモニタリングによるアラート、SLOベースのアラートのみでうまく運用されているサービスにはあてはまらないと考えてます。 参考書籍は色々あり、最後に記載していますが提示されてるプラクティス通りではないものもあります 。自組織、システムにあった設計をしましょう。 システムの監視がまったくありませんみたいな状況であればまずはサービスのURLに対する外形監視からはじめましょう。 言葉の定義 アンチパターン サービスに対する外形監視が設定されていない アラートを受け取って直ちに何かアクションを行う必要がない アラートに対応するrunbookが存在しない 自動

    オンコールアラートアンチパターン - ださろぐ@はてな
  • 問い合わせ対応の生産性を計測・可視化する - Pepabo Tech Portal

    はじめに こんにちは。CS 室で Customer Ops をやっています @morimai です。 わたしが所属する Customer Ops チームは、CS 室の業務に必要なデータ基盤の構築・運用や業務の自動化、データ活用の促進などをメインに活動しています。 今回は、CS(カスタマーサポート、カスタマーサクセス)の大前提である「問い合わせ対応の安定運営」を実現し、顧客体験向上に寄与するために、「問い合わせ対応の生産性」を計測・可視化したことについてご紹介します。 はじめに なぜ問い合わせ対応の生産性を計測・可視化するのか どのように計測・可視化するか 問い合わせ対応をするパートナーごとの「問い合わせ対応件数」の収集 問い合わせ対応をするパートナーごとの「問い合わせ対応時間」の収集 収集したデータをもとに 1 時間あたりの対応件数を自動で毎日計算・可視化 Google Sheets と

    問い合わせ対応の生産性を計測・可視化する - Pepabo Tech Portal
  • Datadog APMとトレーシングの仕組みについて · Goldstine研究所

    こんにちは。@mosuke5です。 みなさん普段の監視はどのように行っていますか?Datadog使っていますか? 最近Datadogを触る機会が多いのですが、Datadogはobservabilityの3柱ということで、メトリックとトレース(APM)とログ、この3つを統合した監視サービスであることを強くおしだしています。 3つの分野のそれぞれに対応したOSSやサービスは多いですが、統合されてシームレスに連携できる点はDatadogの非常に強いポイントと感じます。 さて、そんななかでDatadog APM (Application Perfomance Monitoring) が強力だったので紹介したいのと、その仕組みを探っていきましょう。 APMとはなにか、なぜ必要か 従来的な監視との違い 今回に至るまで、APMは名前は聞いたことがありましたが、実際に利用したことはありませんでした。 A

    Datadog APMとトレーシングの仕組みについて · Goldstine研究所
  • Microservices時代の監視設計 - An Epicurean

    前のエントリの続きです。思ってた以上に反響があったので、主語を控えることも検討しましたがこのまま行きます。前回同様、すでにMicroservicesでバリバリやっている人は読む必要ないと思います。 前回の最後にMicroservices時代になると、開発者がこれまで以上に監視に取り組んでいく必要があると言う話を書きました。多少重複するところもありますが、その辺りから話を始めます。 モノリシック世界観での監視 アプリケーション監視の浸透 Microservices時代の監視設計 開発者自身が監視する どう監視するか メトリクス設計 The Four Golden Signals USEメソッド REDメソッド USEとREDの補完関係 The Four Golden Signalsの素晴らしさ 例: ある認証コンポーネントの監視設計 まとめ モノリシック世界観での監視 Webサービスの構成が

    Microservices時代の監視設計 - An Epicurean
  • 監視 入門 ~ マイクロサービス時代の監視設計

    Profile id: Songmu (ソンムー) Masayuki Matsuki / 松木雅幸 おそらくはそれさえも平凡な日々 http://www.songmu.jp/riji/ https://metacpan.org/author/SONGMU はてな東京オフィス チーフエンジニア Mackerel プロダクトマネージャー 60+ CPAN Modules 3 Times ISUCON Winner Using Perl YAPC::Tokyo 2019 ベストスピーカー

  • 1