こんにちはネクストモード田邉です。 AWS Summit Tokyo に初めて参加しました。 当エントリでは2023年04月20日に行われた『Amazon の事例から学ぶ Observability 活用におけるベストプラクティス』に関する内容をレポートしたいと思います。 AWS Summit Tokyo | 2023 年 4 月 20 日, 21 日 幕張メッセで開催 セッション概要 当セッション の登壇者及び概要は以下の通りです。 システムの健全性やユーザの満足度をどのように把握していますか?システムの Observability (可観測性)を高めるには、単にサーバのモニタリングを行うだけでは不十分です。エンドユーザの体験を含めたログやメトリクス、トレースといった情報を収集、関連付け、可視化、分析することで、システムの問題を迅速に発見して解決に繋げられる、そんなメカニズムが必要です。
こんにちは。SRE/データストアチーム の飯塚です。 私たちのチームではデータベースを代理で操作したり情報を取得したりするサービスをいくつか作り、それをプロダクトチームが利用できるように gRPC 経由で提供しています。ところで、ある日突然「分散トレーシングを活用していくことになったので、あなたのチームのサービスも対応させてください」とお願いされたらどうすればよいでしょうか?私はこれまでにいろいろなカンファレンスで分散トレーシングや OpenTelemetry についての講演を聞いていたので、理念は理解した、便利そうだ、導入してみたい、と思ったことは何度かありました。しかし実際に導入しようとして SDK のドキュメントを開いてみると、理解しなければいけない(ように見える)概念や、使い方をマスターしないといけない(ように見える)API の数に圧倒されてしまい、後回しにしてしまっていました。
こんにちは。サイバーエージェントの杉浦です。 連載「5分でわかる!Kubernetes/CloudNative Topics」の第6回は、オブザーバビリティに注目して、Kubernetesにおける継続的プロファイリングについて取り上げます。 オブザーバビリティとプロファイル 安定してサービスを提供するためには、デプロイしたアプリケーションの状態を継続的に観測し、不具合やその予兆を察知・対処していく必要があります。 アプリケーションの状態を観測する能力をオブザーバビリティ(Observability[1])といいます。このオブザーバビリティを確保するにあたってどのようなデータを用意すべきか、従来ではメトリクス・トレース・ログの3つを柱とすべきだとされていました。 それぞれメトリクスはCPU使用率やメモリ使用量といった時系列の数値データ、トレースは個々のアプリケーションを伝播する特定のリクエス
Solutions All end-to-end solutions Opinionated solutions that help you get there easier and faster
※岡本、正野、宇都宮はNTTデータ所属 Kubernetesやクラウドネイティブをより便利に利用する技術やツールの概要、使い方を凝縮して紹介する本連載「Cloud Nativeチートシート」。連載第9回から第12回までは「サービスメッシュ」「Istio」を紹介してきました。今回から複数回に分けて「Observability(オブザーバビリティ)」「可観測性」にフォーカスして解説します。 今回は、Observabilityの概要と、その構成要素や考慮点を紹介し、次回以降Observabilityを構成する各要素に活用できるオープンソースソフトウェア(OSS)とその使い方を説明していきます。 クラウドネイティブなシステムの監視の課題とObservability Observabilityとは、システムを観測可能、つまり「いつ、何が、どこで起こっているのかを観測可能に保つ」考え方です。Obser
クラウドで実行される分散アプリケーションとサービスは、その性質上、多数の変化する部分で構成される複雑なソフトウェアです。 運用環境では、ユーザーがシステムを使用する方法を追跡し、リソース使用率をトレースし、さらにシステムの正常性とパフォーマンスを全般的に監視できることが重要です。 ここに記載する情報を診断に使用して、問題の検出と修正を行うことができます。さらに、潜在的な問題を見つけてその発生を防止するために役立てることもできます。 監視と診断のシナリオ 監視を行うと、システムがどの程度正常に機能しているかを知ることができます。 監視は、サービス品質目標を維持するための非常に重要な要素です。 監視データを収集する一般的なシナリオは、次のとおりです。 システムが正常な状態を保っていることの確認。 システムとそのコンポーネント要素の可用性の追跡。 作業量が増加したときに、システムのスループットが
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く