並び順

ブックマーク数

期間指定

  • から
  • まで

81 - 120 件 / 189件

新着順 人気順

DataDogの検索結果81 - 120 件 / 189件

  • Datadog を使った KARTE 管理画面パフォーマンス改善の取り組み

    KARTE 管理画面のパフォーマンスの監視をするにあたって考えたことや Datadog の活用のポイント、改善で取り組んだことについて紹介します。

    • モニタリングツール「Datadog」で障害 政府向け除く全リージョンで セキュリティ監視・ログ管理などに影響

      モニタリングサービス「Datadog」で、3月8日午後3時半ごろから障害が起こっている。米国やヨーロッパなど、政府向けを除く全リージョンで問題が発生。セキュリティ監視やログ管理機能などに遅延・エラーが見られるという。 関連記事 ChatGPTにKubernetesのアラート対応を教えてもらえる 監視ツールとAIをつなげる「Kubernetes ChatGPT Bot」登場 Kubernetesのモニタリングツールと「ChatGPT」を統合した「Kubernetes ChatGPT Bot」が登場。発生したアラートの内容を自動的に受け取り、対処方法をAIがチャットで教えてくれるという。 Google CloudのPrometheusマネージドサービスが正式版に 6京5000兆のポイントを保持するバックエンド上に構築、事実上無限の指標に対応可能 Google Cloud上で動作する運用監視ツー

        モニタリングツール「Datadog」で障害 政府向け除く全リージョンで セキュリティ監視・ログ管理などに影響
      • セキュリティを後回しにできない――、Datadog JapanがDevSecOpsを実現する3つの新製品を紹介

          セキュリティを後回しにできない――、Datadog JapanがDevSecOpsを実現する3つの新製品を紹介
        • 開発者でも取り組める!発展期のサービスこそ、SLOやDatadogダッシュボードで状態を可視化してメンバーに安心を届けよう - Money Forward Developers Blog

          こんにちは。 2021年10月からマネーフォワード クラウド勤怠の開発チームでSREとして働いています、VTRyo です。 入社2週間経過ブログを書いて以来の登場です。 https://moneyforward.com/engineers_blog/2021/10/28/mf-on-boarding/ 現在の僕は、チーム一人目のSREとして活動しています。せっかくなので、SRE立ち上げ記を綴っていきます。 第1話は 「サービスの状態を可視化して、まずはチームメンバーに安心を与えていこうな」 という話をします。 話さないこと SREそのものについて 具体的な作業ログ 経緯 10月某日。入社オリエンや開発オリエンが終わって徐々にSRE活動を始めることになりました。 必要なチャンネルに一通り招待され、どんなやり取りが発生するかを把握していきます。 そこで、真っ先に気になったのはモニタリングに関す

            開発者でも取り組める!発展期のサービスこそ、SLOやDatadogダッシュボードで状態を可視化してメンバーに安心を届けよう - Money Forward Developers Blog
          • DMM.go #4「マイクロサービスプラットフォーム向け負荷試験基盤の初期リリースを終えた話」イベントレポート - DMM inside

            |DMM inside

              DMM.go #4「マイクロサービスプラットフォーム向け負荷試験基盤の初期リリースを終えた話」イベントレポート - DMM inside
            • Datadog Dashboard at Scale w/ Terraform | Mercari Engineering

              こんにちは。株式会社メルペイSREチームの@kekeです。 Merpay Advent Calendar の9日目の記事です。 本記事ではスケーラブルなDatadogモニタリングシステムをTerraformによって実現した方法を紹介します。 はじめに すでに多くの発表があるのでご存知の方も多いのではないかと思いますが、メルペイではマイクロサービスアーキテクチャを採用しています。 マイクロサービスアーキテクチャの略図 各マイクロサービスのデベロッパーは責任を持ってそれぞれのサービスを開発・運用しています。 SRE(Site Reliability Engineering)チームはシステムの信頼性を失うことなく高い開発速度を実現できるような仕組みづくりに取り組み、それをデベロッパーに提供しています。メルペイという金融事業の、高い信頼性の実現のためにサービスを横断的にモニタリングをしています。可

              • Datadog APMで実現するサーバーレスアーキテクチャの分散トレーシング - ZOZO TECH BLOG

                はじめに こんにちは。ブランドソリューション開発部 プロダクト開発チームの杉田です。Fulfillment by ZOZO(以下、FBZ)が提供するAPIシステムの開発・運用を担当しています。 本記事では、サーバーレスアーキテクチャを採用しているFBZのAPIを例に、Datadog APMを使った分散トレーシングの導入手順と運用する際のポイントを紹介します。 「サーバーレスアーキテクチャを採用しているけど分散トレーシングを導入していない」という方や、「既にDatadogは活用しているけどAPMの機能は使っていない」という方に読んでいただけると幸いです。 FBZにおけるサービス監視 FBZでは、CloudWatchメトリクスやAWS Lambda、API Gatewayのログを解析し、PagerDutyやDatadogなどの外部サービスに連携して監視をしています。最近では、Lambda De

                  Datadog APMで実現するサーバーレスアーキテクチャの分散トレーシング - ZOZO TECH BLOG
                • Kubernetes HPA External Metrics を利用した Scheduled-Scaling - スタディサプリ Product Team Blog

                  こんにちは。SRE の @chaspy です。 Quipper では Kubernetes Horizontal Pod Autoscaler (以下、HPA) を利用して Pod のオートスケーリングを実現しています。 HPA は非常に便利で、ほとんどのトラフィック増減に対応できます。しかし、オートスケーリングの宿命ではありますが、突発的なアクセス、いわゆるスパイクアクセスにはどうしても対応できません。CPU 利用率が急激に上がり、HPA がすぐに Desired Replicas を増やしたとしても、Node*1 のスケールアウトに5分程度はかかってしまいます。 CPU 使用率に基づくオートスケーリングに対して、決まった時間に決まった個数を事前にスケールしておくことを Scheduled-Scaling と呼ぶことにしましょう。前者のオートスケーリングと併用して Scheduled-S

                    Kubernetes HPA External Metrics を利用した Scheduled-Scaling - スタディサプリ Product Team Blog
                  • CREがエンジニアリングで業務効率化をおこなった話 〜Datadogから異常に重いリクエスト数を自動集計〜 - ANDPAD Tech Blog

                    こんにちは。CREの山本です。 今回はCREがエンジニアリングで業務効率化をおこなった話について書こうと思います! 私は誰か 今回初めてブログを書きますので簡単に自己紹介させてください! 2022年にアンドパッドへ入社し約1年半の間、ANDPAD施工管理を担当しています。 前職では自社開発のデータベースの監査アプリケーションやデータベース移行補助ツールなどのテクニカルサポートをおこなっていました。 常日頃「プロダクトと顧客」の間に立つものとして、課題に対して技術的に向き合っています。 大工一筋の父親のもとで育ちましたので、私なりに建築・建設業界の役に立ちたいとアンドパッドで充実した日々と共に業務に励んでいます! 前提 アンドパッドのCREは、外形監視として利用しているDatadogを活用して異常に重いリクエストの確認、集計を行なっています。 そして検知回数、遭遇ユーザー数、全体のログ数など

                      CREがエンジニアリングで業務効率化をおこなった話 〜Datadogから異常に重いリクエスト数を自動集計〜 - ANDPAD Tech Blog
                    • DatadogでECS Fargate TaskのCPU利用率が100%を超えて表示されていたので調べてみた - Classi開発者ブログ

                      こんにちは。開発本部の遠藤です。 ClassiではAmazon ECSをアプリケーション実行環境として利用しています。 ECSの各種メトリクスをDatadogを使ってモニタリングしながら、日々安定稼働しているかどうかをチェックしています。 そのうちの一つの重要なメトリクスとして、ECSのFargate TaskのCPU利用率が過度に高まっていないか、があるのですが、ある時期、CPU利用率が100%を超えてしまっていて「一体なにが起きてるんだ??」と疑問を持ちました。 今回はそれについて深堀りしてみたので、ニッチなトピックですが紹介したいと思います。 ECS Fargate TaskのCPU利用率が100%を超えて表示されている こちらが実際にCPU利用率が100%を超えてしまったときのグラフです。 Datadogのメトリクスは ecs.fargate.cpu.percent です。なお、c

                        DatadogでECS Fargate TaskのCPU利用率が100%を超えて表示されていたので調べてみた - Classi開発者ブログ
                      • Optimizing 700 CPUs Away With Rust

                        In Tenable.io, we are heavy users of Datadog custom metrics. Millions of metrics are sent through Dogstatsd, providing deep insights into the complex platform. As the platform grew, we found that a significant number of metrics sent by legacy apps were obsolete. We tried to hunt down these obsoleted metrics in the codebase, but modifying legacy applications was extremely time consuming and risky.

                          Optimizing 700 CPUs Away With Rust
                        • SLO の監視に Burn Rate Monitoring を導入してみた話 - スタディサプリ Product Team Blog

                          こんにちは。スタディサプリ小中高 / Quipper SREの@kyontanです。 この記事は Recruit Engineers Advent Calendar 2022 の1日目の記事です。 開発チームが事実に基づいて(= fact-basedな)意思決定をできるようにするための一助として、SREチームではSLO (Service Level Objective)が設定されていることをサービス公開時の要件としています。 スタディサプリ小中高におけるSLOの運用については、以前弊チームの@chaspyが SRE NEXT 2020 で「SLO Review」というタイトルで登壇しました #srenext という記事を書いているので、こちらもご参照ください。 本記事では、これまでしきい値によるアラートを設定していたSLOについて、Burn Rateによるモニタリングを試してみたので、ざっ

                            SLO の監視に Burn Rate Monitoring を導入してみた話 - スタディサプリ Product Team Blog
                          • FireLensでログ転送するときは依存関係とHealthcheckを設定しないとログを取りこぼすことがある

                            三行で FireLens を使うことで ECS で稼働するアプリケーションのログ転送を簡単に実装できる しかし、ドキュメントに記載されている設定例をそのまま利用しただけでは実はログの取りこぼしがあった ログの取りこぼしを防ぐためにコンテナ間の依存関係とHealthcheckの設定を行った FireLens とは FireLens を簡単に言うと、「ECS のタスク定義の記述だけで Fluent Bit / Fluentd を使ったログ転送用のサイドカーコンテナが利用できる機能」でしょうか。 FireLens という個別のサービスやソフトウェアが存在するわけでは無いようです。 詳細は以下を参照ください。 症状 私が関わったとあるサービスでは ECS を使ってアプリケーションを稼働させていて、アプリケーションのログは FireLens により Fluent Bit を使ってログ転送を行っていま

                              FireLensでログ転送するときは依存関係とHealthcheckを設定しないとログを取りこぼすことがある
                            • Terraform Cloud運用可視化 〜利用する際に見えていなかったものを見えるようにした話〜 - DMM inside

                              Single NodeのDocker Swarmを利用してオンプレミスにデプロイされるGraphQLサーバを安全にローリングアップデートさせている話

                                Terraform Cloud運用可視化 〜利用する際に見えていなかったものを見えるようにした話〜 - DMM inside
                              • DataDog APM を Go の HTTP アプリケーションにフレキシブルに適用する - Nature Engineering Blog

                                ソフトウェアエンジニアの北原です。 Nature ではモニタリングサービスとして DataDog を使用しています。また、DataDog APM を利用し、HTTPアプリケーションとしてのメトリクスの収集を行っています。 DataDog APM として、どのようなことができるかは、クラスメソッドさんの記事も参考になります。 今回は、Nature の API サーバに DataDog APM を適用するにあたり、オフィシャルのライブラリである github.com/DataDog/dd-trace-go パッケージにプルリクエストを出しマージ、リリースされたのでその説明をします。 github.com github.com まず dd-trace-go では、net/http, Gin, Gorilla Mux, Gorm などメジャーなパッケージに対し簡単に導入できるよう準備がされています

                                  DataDog APM を Go の HTTP アプリケーションにフレキシブルに適用する - Nature Engineering Blog
                                • サーバーレスの現状

                                  2023年8月更新 この調査は、2022年 6月に公開された本記事の前回版を基にしています。各実証に関するグラフはこちらからダウンロードでき、レポート本体はこちらをクリックしてダウンロードできます。 サーバーレスは現代のコンピューティングの主流となっています。今日、企業は増え続けるサーバーレスサービスを利用し、新しい革新的な方法でアプリケーションの構築と管理を行っています。チームはコンテナ化された関数やフルマネージド型のコンテナベースアプリケーションを利用することで、従来の FaaS (Function-as-a-Service) ソリューションを超えてシステムを拡張できるようになっています。AWS、Google Cloud、Azure などの主要なクラウドプロバイダーや、Vercel、Cloudflare などの新興プラットフォームは、開発者の期待するワークロードに対応するように設計され

                                    サーバーレスの現状
                                  • DatadogでAPI毎のSQL発行数を可視化してN+1を改善! - Nealle Developer's Blog

                                    こんにちはSREチームの宮後(@miya10kei)です。最近、スマートホーム化にハマっていていろいろと買い漁っています🛒 N+1問題を検知するのって結構大変ですよね? 今回はDatadogを使ってN+1問題を可視化し、パフォーマンス改善につなげた話を紹介したいと思います。 ※ 2024/05/29に開催されたJapan Datadog User Group Meetup#4 でもLTしてきました🎤 speakerdeck.com N+1問題とは? N+1問題は主にデータベースへのクエリーを扱う際に出くわすパフォーマンス上の問題です。1つのクエリーでN件のデータを取得した後にそれぞれのデータに対して追加でクエリーが発行されることでパフォーマンスを大幅に低下させます。(1 + N問題と呼んだ方がしっくりくる気がしますが...🤫) 背景 この取り組みを始めた経緯は、システムへのリクエスト

                                      DatadogでAPI毎のSQL発行数を可視化してN+1を改善! - Nealle Developer's Blog
                                    • Amazon EventBridge(CloudWatch Events)で動かしているバッチをDatadogで監視する仕組みを構築した話 - Classi開発者ブログ

                                      開発本部 認証連携チームでエンジニアをしている、id:ruru8net です。 これはClassi developers Advent Calendar 2021の9日目の記事です。 昨日の記事はこちらです。 Hardening 2021 Active Fault 参加レポート - 桐生あんずです 以前のClassi Advent Calender 2019では新卒が入社半年で社内サービスをリリースしてエンジニア楽しいってなったお話を書かせていただきましたが、あれから2年の間に業務の中で様々な経験をし、さらに知識やスキルを身につけていくことができました。 今日はその中でも自分が担当しているサービスの、バッチ監視の仕組みを考えたので紹介させてください。 背景 担当チームでは毎日深夜2時にDBからデータを削除するバッチを動かしています。 他にも社内では様々なバッチが動いていますが、これらを監視

                                        Amazon EventBridge(CloudWatch Events)で動かしているバッチをDatadogで監視する仕組みを構築した話 - Classi開発者ブログ
                                      • WEARにおけるKubernetesネイティブな負荷試験基盤の導入とその効果 - ZOZO TECH BLOG

                                        はじめに こんにちは。ブランドソリューション開発本部バックエンド部SREの山岡(@ymktmk)です。普段はファッションコーディネートアプリ「WEAR」のSREとしてクラウドの運用やリプレイスをおこなっています。 昨年から、私たちのチームでは分散した技術スタックをKubernetesへ統一するリプレイスプロジェクトを開始し、先月ついにKubernetesへの移行が完了しました。 techblog.zozo.com また、Kubernetesへの段階的な移行と並行して、Kubernetesの柔軟性を活かした運用改善や開発者体験の向上に取り組んできました。その一環として、k6-operatorを活用した負荷試験基盤を作成しました。 本記事ではWEARにKubernetesネイティブな負荷試験基盤を導入した背景とその効果についてご紹介します。Kubernetes環境における負荷試験基盤の導入を検

                                          WEARにおけるKubernetesネイティブな負荷試験基盤の導入とその効果 - ZOZO TECH BLOG
                                        • ArgoCDからDatadogに送るログを削減するテクニックと、苦労したこと - LIVESENSE ENGINEER BLOG

                                          はじめに ArgoCDを構成するコンポーネントについて ArgoCDのログ量問題に直面した背景 ロギングライブラリが複数あることによる苦労 ログレベルを調整した結果 おわりに はじめに インフラストラクチャーグループの @mom0tomo です。普段はマッハバイトのクラウド移行に取り組んだり、コーポレートサイトのCSS/JSと格闘したりしています。最近、少しずつ転職会議のKubernetes運用にも関わるようになりました。 転職会議では、KubernetesクラスターへのCI/CDツールとしてArgoCDを利用しています。 made.livesense.co.jp ArgoCDにはGUIがあるためアプリケーション開発者も親しみやすいなど利点が多いのですが、デフォルトで出力されるログが多く、必要以上にログデータを生成してしまうと言う問題がありました。とくにDatadogのようなログ分析ツール

                                            ArgoCDからDatadogに送るログを削減するテクニックと、苦労したこと - LIVESENSE ENGINEER BLOG
                                          • なぜか遅いAPIをDatadog Continuous Profilerで調べて高速化した話 - LIVESENSE ENGINEER BLOG

                                            こんにちは、かたいなかです。 みなさんが関わっているシステムでなぜか遅くて悩まされている処理はないでしょうか? 最近、遅いAPIをDatadog Continuous Profilerを使用して調べました。どのように問題解決までつなげたかを記事にまとめます。 www.datadoghq.com TL;DR 特定のAPIが遅い問題が発覚 Continous Profiler導入 Continuous Profilerで計測してみると・・・ 問題修正 実際のところ まとめ 参考 TL;DR 遅い処理を改善しようと思ったらまずは計測してみること。 計測することで実は単純な問題であったことに気付けるケースがたくさんあります。また、的はずれな推測を元にでたらめな変更を繰り返してしまう事態を防げます。 通常のDatadog APMで原因がわからない場合には、Continuous Profilerで可視

                                              なぜか遅いAPIをDatadog Continuous Profilerで調べて高速化した話 - LIVESENSE ENGINEER BLOG
                                            • Datadog、日本に新しいデータセンターを開設 | Datadog

                                              製品 { this.openCategory = category; const productMenu = document.querySelector('.product-menu'); window.DD_RUM.onReady(function() { if (productMenu.classList.contains('show')) { window.DD_RUM.addAction(`Product Category ${category} Hover`) } }) }, 160); }, clearCategory() { clearTimeout(this.timeoutID); } }" x-init=" const menu = document.querySelector('.product-menu'); var observer = new MutationO

                                                Datadog、日本に新しいデータセンターを開設 | Datadog
                                              • Datadog を Kubernetes 上で運用するときのカーディナリティ設定 - たんぶろぐ

                                                先月あたりからこんな事象に悩まされていた。 before この画像は、Kubernetes 上の Deployment に対して一定の負荷 (50 req/s) をかけながら、レプリカ数を変化させたときのグラフである。 Deployment がどのくらいの負荷を受けているのかを見たかったのだが、グラフ化したときに意図した通りにならずモヤモヤしていた。この実験は一定負荷なのでレプリカ数を変えても Deployment 全体で受けている負荷は変わらないはず。それなのにレプリカ数を増やすとなぜか負荷が減っているように表示されてしまう。どうして。 TL;DR Datadog Agent の環境変数 DD_CHECKS_TAG_CARDINALITY に orchestrator を設定すれば解決する。 続き これを最初見たとき、Aggregator 設定をミスっているのかと疑ったが、ちゃんと su

                                                  Datadog を Kubernetes 上で運用するときのカーディナリティ設定 - たんぶろぐ
                                                • Datadog Continuous Profiler を用いて、ボトルネックが Ruby の GVL であることを発見した

                                                  Datadog Continuous Profiler を用いて、ボトルネックが Ruby の GVL であることを発見した こんにちは、terandard です。 弊社では Datadog を用いてアプリケーションやサーバーの監視を行っています。 以前からリクエストがスパイクした際にアプリケーション全体が遅延する問題があったので、Datadog Continuous Profiler を使用して調査したことについて紹介します。 背景 リクエストがスパイクするとアプリケーション全体が遅延する問題がありました。 リクエスト全体のリクエスト数とレイテンシー 特に処理に時間がかかっていたリクエストについて Datadog APM で状況を確認すると、下図のように空白期間があったり mysql2 や faraday の実行時間が長いことがわかりました。 例1: 謎の空白期間がある 例2: mysq

                                                    Datadog Continuous Profiler を用いて、ボトルネックが Ruby の GVL であることを発見した
                                                  • Rails アプリの重い処理を Datadog APM で改善した話

                                                    Leaner 開発チームの黒曜(@kokuyouwind)です。 この記事は Datadog Advent Calendar 2022 の 22 日目です。いよいよクリスマスが近づいてきましたね。 今回は Datadog APM のトレース機能を利用したパフォーマンスチューニングを実施したため、その内容をまとめます。 パフォーマンスチューニングの背景 今回パフォーマンスチューニングの対象にしたのは、外部サービスの商品を横断的に検索する「商品検索 API」です。この API では外部サービスごとに API を呼び出しており、取得したデータの加工や集約などを行っています。 機能を使ってみて確かに重いことはわかっているのですが、どの処理に時間がかかっているのかは判別できていませんでした。このため自分を含むメンバー全員が「外部サービス API 呼び出しが大半を占めており改善はできないだろう」と推測

                                                      Rails アプリの重い処理を Datadog APM で改善した話
                                                    • サーバレスはAWSの顧客の7割以上、Google Cloudの顧客の6割以上が利用、Datadogの調査結果

                                                      サーバレスはAWSの顧客の7割以上、Google Cloudの顧客の6割以上が利用、Datadogの調査結果 モニタリングサービスをSaaSとして提供しているDatadogは、同社のサービスを通じてサーバレスを監視している2万以上の顧客のデータを基にしたサーバレスに関する調査結果を発表しました。 ここでは調査結果の主なポイントを見ていきましょう。 AWSの顧客の7割以上がサーバレスを利用 クラウドを利用している顧客のうち、何パーセントがサーバレスを利用しているかについての調査では、AWSの顧客の70%以上、Google Cloudの顧客の60%が1つ以上のサーバーレスソリューションを使用しており、Azureは49%と僅差で続いています。 サーバレスのプラットフォームには、AWS LambdaやGoogle Cloud Functionsなど、クラウド側であらかじめマネージドなランタイムが提

                                                        サーバレスはAWSの顧客の7割以上、Google Cloudの顧客の6割以上が利用、Datadogの調査結果
                                                      • オンプレミスKubernetes環境でのDatadogのデータ欠損を解消した話 - pixiv inside

                                                        はじめに こんにちは。インフラ部のlyluckです。 この記事ではオンプレミスKubernetesクラスター環境のデータがDatadogへ送りきれず欠損した現象と、その解消方法について紹介します。 背景 ピクシブでは2023年からオンプレミスKubernetesクラスターが稼働し始めました。 徐々にクラスター上で稼働するサービスが増えつつあります。今では10ノードほどの規模のクラスター上で10程度のサービスが稼働しており、常に300台ほどのPodが起動しています。 クラスターやクラスター上のリソースの監視にはDatadogを利用していましたが、時間帯によっては監視データが欠損することが問題になりました。 リソースの監視に支障をきたしたり、意図しないアラートのトリガーが発生してしまったりしたため、この問題に対応することになりました。 まとめ クラスターチェックランナーを使ってKubernet

                                                          オンプレミスKubernetes環境でのDatadogのデータ欠損を解消した話 - pixiv inside
                                                        • Datadog Log Management でアプリケーション稼働モニタリング - 一休.com Developers Blog

                                                          こんにちは。 システム本部CTO室のakasakasです。 今回は、Datadog Log Management を使ってアプリケーション稼働モニタリングをしている話をしたいと思います。 一休のモニタリング周りの話 インフラのリソースモニタリング 外形監視 モニタリング観点で一休が抱えていた課題 Datadog Log Management Datadog Log Management からダッシュボード作成 Datadog Log Management からアラート作成 必要なメトリクスはカスタムメトリクスを作る graph_snapshot API を使って、デイリーレポート まとめ 最後に 一休のモニタリング周りの話 Datadog Log Management とアプリケーション稼働モニタリングの話をする前に、一休でどのような監視をしているのか?という話を簡単にします。 一休ではD

                                                            Datadog Log Management でアプリケーション稼働モニタリング - 一休.com Developers Blog
                                                          • Datadog を利用して SLO を管理しよう! #datadog | DevelopersIO

                                                            個人的には、この考え方はとても興味深いものです。 SLO は 100% に近いほど良いもので、「目指せ 100% !!」 と考えがちですが、そうではなく障害などによる未達部分を除いた時間を余力・機会とし、本番環境でのリリース作業や改善を施すことが出来る数値的な目安とすることは、関係者間(開発者・運用者・ビジネスサイド)での合意形成をスムーズにさせてくれるはずです。 やってみる Web サービスからの レスポンスタイムを SLI とし、平均 5ms が 1ヶ月で 99.5% 満たすことを SLO とします。 Datadog Synthetics 作成 Synthetics API Test を利用して対象となる Web サービスを外形監視します。(手順は割愛します) Datadog Monitor 作成 SLO を利用するには、Monitor の作成が必要となります。 Monitors >

                                                              Datadog を利用して SLO を管理しよう! #datadog | DevelopersIO
                                                            • The OpenSSL punycode vulnerability (CVE-2022-3602): Overview, detection, exploitation, and remediation | Datadog Security Labs

                                                              emerging vulnerabilities The OpenSSL punycode vulnerability (CVE-2022-3602): Overview, detection, exploitation, and remediation November 1, 2022 emerging vulnerability On November 1, 2022, the OpenSSL Project released a security advisory detailing a high-severity vulnerability in the OpenSSL library. Deployments of OpenSSL from 3.0.0 to 3.0.6 (included) are vulnerable and are fixed in version 3.0.

                                                                The OpenSSL punycode vulnerability (CVE-2022-3602): Overview, detection, exploitation, and remediation | Datadog Security Labs
                                                              • Datadogによるクラウドネイティブなモニタリングの実践 - DMM inside

                                                                Single NodeのDocker Swarmを利用してオンプレミスにデプロイされるGraphQLサーバを安全にローリングアップデートさせている話

                                                                  Datadogによるクラウドネイティブなモニタリングの実践 - DMM inside
                                                                • OpenObserve | Open Source Observability Platform for Logs, Metrics, Traces, and More – Your Ultimate Dashboard for Alerts and Insights

                                                                  OpenObserve is a simple yet sophisticated log search, infrastructure monitoring, and APM solution. It is a full-fledged observability platform that can reduce your storage costs by ~140x compared to other solutions and requires much lower resource utilization resulting in much lower cost. OpenObserve is an innovative open-source observability platform designed to streamline the monitoring of logs,

                                                                    OpenObserve | Open Source Observability Platform for Logs, Metrics, Traces, and More – Your Ultimate Dashboard for Alerts and Insights
                                                                  • Hosted Redash(app.redash.io) から Self-Hosted Redash(GKE) への移行 - CADDi Tech Blog

                                                                    こんにちは。Platform チームの飯迫 (@minato128)です。 CADDi ではこれまで Hosted Redash(app.redash.io) を利用していたのですが、残念ながら 2021/11/30 に End of Life になるので、10 月末に Self-Hosted Redash 環境を構築して移行しました。今回はそのときやったことを紹介します。 移行の流れ 新しい Redash 環境を v10 で構築する 公式の移行ツールを利用してデータ移行する 監視を追加する 新しい Redash 環境を v10 で構築する まず、移行ツールは移行先として v10 を前提としているので、新しい環境は v10 である必要があります。ちなみに、v10 は 10/2 にリリースされた現時点の最新版です。 v10 であればどんな方法で構築しても問題ないのですが、今回は社内用 GKE

                                                                      Hosted Redash(app.redash.io) から Self-Hosted Redash(GKE) への移行 - CADDi Tech Blog
                                                                    • DatadogのモニターをTerraformerでインポートして感じたことなど - エニグモ開発者ブログ

                                                                      この記事は Enigmo Advent Calendar 2022 の13日目の記事となります。 お疲れさまです。インフラチームの山口です。 弊社では一部インフラリソースのモニタリングにDatadogを利用しています。 その中で、今回はDatadogの利用開始当初にGUIで作成されたモニターをTerraformerとTerraformを使用して構成管理した際の事例について報告します。 同様の技術スタックを使用したインポートや構成管理における具体的なテンプレート等の事例には事欠かないと思いますので、作業計画を中心に説明します。 要は、TerraformerやTerraformの使い方は様々良い資料があると思うため、今回固有の対応をした点を注力して説明します。 本稿の構成を以下に記載します。まず、対象とするモニターの状態などの前提を説明します。次に、作業の流れを概説し、Terraformのディ

                                                                        DatadogのモニターをTerraformerでインポートして感じたことなど - エニグモ開発者ブログ
                                                                      • AWS 監視のための主要なメトリクス

                                                                        Looking for Datadog logos? You can find the logo assets on our press page.

                                                                          AWS 監視のための主要なメトリクス
                                                                        • GoのアプリケーションをOpenMetricsを使って監視する | おそらくはそれさえも平凡な日々

                                                                          前のエントリでDatadogについて書いたが、実際にGoのアプリケーションがOpenMetricsを吐くようにするのはどうのようすれば良いかをもう少し解説します。 OpenMetricsとは? 元々[Prometheus]が利用しているフォーマット。Prometheusは"Promethues exporter"と呼ばれる監視対象からメトリクスを集約する作りになっている。 Prometheus exporterは実は「単なるHTTPのエンドポイント」であり、そのレスポンスが独自のテキストフォーマットになっている。このフォーマットを標準化しようとして提唱されているのがOpenMetrics。 https://openmetrics.io/ 実際問題としては、Prometheusのドキュメントの方がまだまだ充実している。 DatadogにはOpenMetricsのインテグレーションがあり、自前

                                                                            GoのアプリケーションをOpenMetricsを使って監視する | おそらくはそれさえも平凡な日々
                                                                          • 監視SaaSのDatadogをAWSマーケットプレイスで契約してみた | DevelopersIO

                                                                            AWSチームのすずきです。 AWSマーケットプレイス で 提供されている AMI や SaaS (Software-as-a-Service) は、 AWS経由で ソフトウェア利用費を支払う事が可能です。 今回、AWSマーケットプレイスで 「Datadog Pro (Pay-As-You-Go)」 を契約し、 月々のAWS利用費と合算する形で、Datadog の 有償ライセンスを必要とする機能(ログ監視)を利用する機会がありましたので、紹介させていただきます。 手順 AWS Marketpace AWSコンソールにログインを済ませたブラウザで、 AWS Marketpace を開き、 検索フォームを利用して「Datadog」を検索します。 プラン選択 「Datadog Pro (Pay-As-You-Go)」 を選択しました。 「Pay-As-You-Go」は前払い料金なし、従量課金でDa

                                                                              監視SaaSのDatadogをAWSマーケットプレイスで契約してみた | DevelopersIO
                                                                            • Datadog Synthetic Monitoring API Tests で 20 を超えるドメインの SSL を監視した - every Tech Blog

                                                                              エブリーで小売業界向き合いの開発を行っている @kosukeohmura です。 昨年、エブリーではネットスーパーの事業を株式会社ベクトルワン様から引き継ぎました。引き継いだシステムを運用していく中で、ネットスーパーの各種サイトや API に使用している 20 個超の SSL 証明書の有効期限を切らさないように更新していく必要があり、そのために監視を導入したお話をします。 引き継ぎ作業の概観については以前公開しました ゼロからはじめるシステム引き継ぎ - every Tech Blog に書きましたので、合わせて御覧ください。 背景とモチベーション システムを引き継いだ時点では SSL 証明書の更新の運用は素朴なものでした。具体的にはエンジニアが有効期限を切らさないようにたまにそれぞれのサイトの有効期限をチェックし、有効期限が近づいたものを発見次第手動で更新作業を行うというものです。抜け漏

                                                                                Datadog Synthetic Monitoring API Tests で 20 を超えるドメインの SSL を監視した - every Tech Blog
                                                                              • Maintain SLO 2020 | メルカリエンジニアリング

                                                                                Merpay Advent Calendar 2020 の21日目は、メルペイ SREチーム の @T がお送りします。 去年のAdvent Calendarでは、Terraform Moduleを使用したSLO(Service Level Objective)の定義と監視設定の定義を共通化し、マイクロサービス毎の1ヶ月毎のSLOを一覧表示出来るダッシュボードを開発していたことを紹介しました。あれから1年、この記事では、その後のSLO運用状況について紹介します。 SLO Dashboard 去年のAdvent Calendarでは、SLOの定義と監視設定の定義を共通化し、DatadogのDashboardやモニターの作成を自動化するため、Terraform Moduleを活用する仕組みを紹介しました。 この仕組みにより、DatadogのSLOのモニター、SLOリソース、SLOウィジェットを

                                                                                  Maintain SLO 2020 | メルカリエンジニアリング
                                                                                • オブザーバビリティ市場の淘汰が進む中、Datadogが成長を続ける理由 (1/2)

                                                                                  2023年9月にはCiscoがSplunkの買収を発表、11月には投資ファンドのFrancisco PartnersとTPGがNew Relicの買収完了を発表した。オブザーバビリティ市場における淘汰が進みつつある中、Datadogの今期第3四半期における売上は約20億1000万ドル、前年度比31%増と、独立ベンダーとして順調に成長を続ける。 就任から約4年を経たDatadog Japanのカントリーマネージャー 国本明善氏に、Datadogの成長を支える強みと、日本市場の今後の展開について聞いた。 DatadogのCEOが年次イベントで“ビジョン”を語らないわけ Datadogは、2010年にニューヨークにて創業。現在、グローバルで従業員数は5000名以上となり、ユーザー企業数も2万7000社を超えた。最初はインフラ監視からビジネスを開始し、クラウドの流行に合わせて成長を重ねた。転機とな

                                                                                    オブザーバビリティ市場の淘汰が進む中、Datadogが成長を続ける理由 (1/2)