[B! aws][monitoring] lepton9のブックマーク

「Datadog入れてみたらAWSの料金が爆発した話」@ゆるSRE勉強会 #1

ゆるSRE勉強会 #1 でお話しさせて頂いたLTの資料です！ https://yuru-sre.connpass.com/event/292063/

lepton9 2023/08/30

リンク

全AWSエンジニアに捧ぐ、CloudWatch 設計・運用虎の巻 / CloudWatch design and operation bible

全AWS エンジニアに捧ぐ、CloudWatch 設計・運用虎の巻 / CloudWatch design and operation bible

lepton9 2023/05/30

リンク

個人的AWS ログ管理のベースライン - mazyu36の日記

AWSのログ管理についてはいくつか考えるポイントがあると思います。どのログを保存するか。 CloudWatch Logs（以下CW Logsと記載）とS3のどちらに保存するか、もしくは両方に保存するかなどなど。システムの特性によるところも多いかと思いますが、自分の中でのログ管理のベースラインが定まりつつあるので、頭の整理がてらまとめます。自分の中での大まかな方針としては以下です。 S3に保存できるものは基本S3に保存する。以下の場合は、CW Logsに保存する。必要に応じてS3に転送する。アラームを出したい場合さっとCW Logs Insightでログを確認したい場合 CW Logs に出さざるを得ない場合全体像としては以下になります。なおあくまで個人的な経験に基づくものなので、実際にはシステムの特性を踏まえて方針の決定が必要かと思います。またこれは必要、これは不要など

lepton9 2023/03/18

リンク

AWS監視アラート事始め - mazyu36の日記

はじめに入門監視をはじめ一般的な監視に関するプラクティスは出回っているものの、AWSで具体的に何を監視するか？そのとっかかりについてはあまり出回っていないような気がします。 AWSの監視ってみんな何監視してるんすか…っていうぐらい実例あまり見つからないな。門外不出？— mazyu36 (@mazyu36) 2023年2月14日どこまで監視するかは基本的にシステムの特性によると思います。一方でAWSのサービスごとにシステムによらずよく監視で使う項目というのもあるかと思います。今回は過去の経験をもとに、最低限この辺りは監視することが多いかなというものをまとめてみます。全体像としては以下になります。最低限これは監視しないとダメでしょ、とかこれは不要でしょ、などなどあるかと思います。そういうのがあればぜひコメントいただきたいです。はじめに「監視」について前提 1-1. Webサービス

lepton9 2023/02/26

リンク

【AWS】ぼくのかんがえたさいきょうの運用・監視構成 - Qiita

AWSのインフラを運用・監視する上で使いやすいと思ったサービスを組み合わせて構成図を作成しました。それぞれのサービスの簡単な説明と類似サービスの紹介、また構成の詳細について説明していきます。 (開発で使用するようなサービスも紹介しますが、あくまでも運用・監視だけの構成です。) 各個人・企業によって環境は違うと思いますし、使いやすいと思うサービスは人それぞれだと思うので、これが正解という訳ではありませんが、参考にしてただければ幸いです。参考になった教材を紹介した記事も作成しました。是非読んでみてください！【AWS】さいきょうの運用・監視構成を作成するのに参考になった書籍インフラエンジニア1年生がプログラミングを勉強するのに使った教材全体図こちらがAWSにおける"ぼくのかんがえたさいきょうの"運用・監視構成です。複雑で分かりづらいかと思うので、詳細に説明していきます。最後まで読めばこ

lepton9 2023/02/24

リンク

EKS FargateのDatadog導入に躓いた話

はじめに Datadog導入するにあたってインフラメトリクスを取得するのに困難したので躓いたポイントをまとめて行きたいと思います。 Datadogのアーキテクチャ以下KubernetesにDatadogを導入した際のアーキテクチャです。公式には以下のようなことが記述されています。 Cluster Agent は、API サーバーとノードベースの Agent 間のプロキシとして機能します。これにより、API サーバーへの直接の負荷が軽減されるだけでなく、ノードベースの Agent はノードレベルのデータの収集に集中できます。一方、Cluster Agent はマスターノードからクラスターレベルのデータを収集します。Cluster Agent は、クラスターレベルのメタデータをノードベースの Agent に送り返すため、ローカルで収集されたメトリクスを、クラスター全体で一貫したタグを設定し

lepton9 2022/11/30

リンク

あんどぅ on Twitter: "本番運用するといずれ誰もがたどり着く、公式ドキュメントには書かれてないログ管理の現実解が資料化されていてすばらしいそう、CloudWatch LogsにはDev環境 or ERRORの場合のみ飛ばすFluentdの設定をすることで利便性と料金のバランスをとるのであるこれは公式ドキュメントにすべき https://t.co/RE4FmPCpJX"

lepton9 2022/11/10

リンク

Datadog メトリクスモニター作成入門

Datadog はモニタリング関連の SaaS ではおそらく最も利用されているサービスでしょうが、公式ドキュメントが豊富にある割には何から読み始めれば良いかわかりにくく、慣れるまでの道が険しい印象です。本エントリーでは、Datadog が既に導入されている組織で、Datadog モニターを使って監視をしたいけど、モニターの設定方法がよくわからないといった方を対象に、メトリクスモニターの作成に焦点を絞って解説していきます。なお、あくまで Datadog の使い方についての解説であり、どのようなモニターを設定すべきかについては触れません。メトリクスの収集についても触れたかったんですが、力尽きたので、メトリクスの収集については気が向いたら別エントリーを書きます。アジェンダメトリクスモニターの作成方法の基本クエリの定義についてクエリの評価期間・評価方法・アラート条件の指定クエリの結果

lepton9 2022/11/09

リンク

takachan on Twitter: "このまとめいいぞ #jawsdays2022_c #jawsdays #jawsug https://t.co/LpG3FoLMY1"

このまとめいいぞ #jawsdays2022_c #jawsdays #jawsug https://t.co/LpG3FoLMY1

lepton9 2022/10/08

リンク

Datadogの活用ノウハウを一挙に公開・それを支える全社管理者の工夫とは #datadog_japan_meetup - ZOZO TECH BLOG

こんにちは。ECプラットフォーム基盤SREブロックの高塚と巣立（@tmrekk_）です。 ZOZOTOWNはクラウド化・マイクロサービス化を進める中で、監視SaaSのDatadogを採用しました。この数年で多くの知見が蓄積され、今では様々なシーンでDatadogを活用しています。この記事ではそのノウハウを惜しみなく公開します。 ※本記事は、先日開催されたDatadog Japan Meetup 2022 Summerにて発表した内容を書き起こして再構成したものです。当日の発表資料 speakerdeck.com 目次当日の発表資料目次はじめにマイクロサービス基盤に必要な監視の要件第1部 ZOZOTOWNにおけるDatadogの活用 1. どこで障害が起こっているのか分からない → APM 2. アラートやダッシュボードや外形監視が欲しい → Monitors, Dashboar

lepton9 2022/07/30

リンク

AWSのコストモニタリングの知見をシェアしたい - Uzabase for Engineers

NewsPicksの高山です。今回は、AWSのコストを我々がどのように定点観測しているかを書いていきます。あわよくば他社さんも事例を広く共有してもらえて業界全体の共有知が増えることに繋がってほしい狙いがあります。 NewsPicksでは過去2年ぐらいかけて地道にコストモニタリングのオペレーションを作ってきました。手法としては、毎週コストモニタリング担当のメンバーで定例ミーティングをして、以下の手順をやりながら議事録にまとめていきます。毎週のオペレーションコスト異常検出 Savings Plansの購入 DynamoDBのReserved Capacityの購入毎月のオペレーション請求書CSVの取り込み Cost & Usage ReportとQuickSight たまにやるオペレーション Reserved Instanceの購入規模の適正化に関する推奨事項 Trusted A

lepton9 2022/07/26

リンク

EKS on FargateでArgoWorkflowを利用したJob実行基盤の構築 - cloudfishのブログ

遅ればせながらEKS on Fargateを使ってバッチ処理を行うことになったので検証を行いました。通常、EKS上でジョブを実行する場合、Webサービス等の実行ノードと同じかもしくは分けてバッチジョブ用のノードを用意することになるかと思いますが、ノードを分けない場合は、バッチ処理による負荷がサービスへ影響を与える可能性がありますし、ノードを分ける場合は、利用しない間も起動しておく必要があることからコスト面が課題になってきます。そのため、バッチ処理をFargate上で実行することで、処理の負荷の影響を切り離してかつ必要な時に必要なリソースだけ利用することでコストの最適化も行えるのではないかと考え検証を行いました。今回は検証過程で得た知見を紹介したいと思います。バッチ処理でEKS on Fargateを使う理由同一ノード上でバッチ処理を行うとどうしても一定時間、CPUやメモリを占有する

lepton9 2022/07/01

リンク

Amazon ECSのログストリームを見やすく階層的に整理できるawslogs設定 - Hatena Developer Blog

こんにちは。SREのid:do-su-0805です。普段はid:do_su_0805として生活しています。この記事では、Amazon ECS（以下、ECS）でコンテナを動かすとき、ログドライバーとしてaws logsを利用してAmazon CloudWatch Logs（以下、CloudWatch Logs）にログを出力する際に、aws logs-stream-prefixというパラメータには何を設定するとよいかについて考察します。結論から言うと、このパラメータに「コンテナのイメージタグ」を入れるようにしたところ、出力されるログストリームの/区切りの階層が見やすくなり、ログが世代別に扱いやすくなったよ、というお話です。 ECS＋CloudWatch Logs構成時のロググループとログストリームについてどのようなログストリームが構成されがちかを事例から考えてみる aws logs-strea

lepton9 2021/08/19

リンク

CloudWatch Logs Insights でコンテナ単位のCPU・メモリ使用量などを確認する | DevelopersIO

ちゃだいん（@chazuke4649）です。前回のブログの過程で、Container Insights画面以外でサクッとコンテナ単位のCPU・メモリ使用量を確認する方法があったので共有します。今回紹介するのは２パターンです。 1.Container Insights画面から飛ぶ方法 2.サンプルクエリをそのまま実行する方法前提 Container Insights画面ではみませんが、Container Insightsを有効化し、これによるカスタムメトリクスやログを収集する必要があります。その他Container Insightsに関係する有用情報を下記ブログで紹介しているので、ぜひ見てみてください。 Container Insights でコンテナ単位のCPU・メモリ使用率を表示させる | DevelopersIO 1.Container Insights画面から飛ぶ方法 Clo

lepton9 2021/04/03

リンク

Amazon Monitronがすごいので紹介してみる - Qiita

またお得なAmazon Monitronスターターキットもご用意されています。（取り付けキット、5 個のセンサー、ゲートウェイのセット）運用費用 Amazon Monitronはセンサー1つあたり年間50USDのランニングコストがかかります。費用例 ■要件 5つのモーターを監視する必要がある。上記を実現するためにAmazon Monitronスターターキットを購入し、モーターごとに1つのセンサーを取り付け3年間使用した。 ■試算結果スターターキット購入費用（715USD）＋　センサー年間利用費用×5（250USD）×3年分　＝　1465USD（3年間利用費用）注意事項 ■ Amazon Monitron 利用可能な地域について米国、英国、およびEUのみで利用可能です。（2021/04/16時点） ■必要なモバイル端末について Android8.0以降のスマートフォンが必要で

lepton9 2021/01/13

リンク

SLO策定とアラート設定までの長い道のり - Cybozu Inside Out | サイボウズエンジニアのブログ

こんにちは、@ueokandeです。早速ですが、皆さんが運用しているサービスには、SLO (Service-level objective: サービスレベル目標) がありますか？アラートの監視項目はどのように設定して、基準値をどのように決めていますか？社外とのコミュニケーションだけでなく、社内向けのSLOを決めておくことで、サービスの健康状態を知るための手がかりや、普段の開発・運用タスクの優先度を決める上での指標にもなります。またSLOがあると、サービスを監視するアラートに、理にかなった閾値を設定できます。この記事ではAWS版kintoneの、SLOとアラートを設定するまでの記録について紹介します。 cybozu.com版kintoneのSLOとアラート国内のcybozu.comで運用しているkintoneにも、もちろんSLOやアラートはあります。しかし現状のSLOはkinton

lepton9 2020/11/13

リンク

Amazon SQS を使ったアプリケーションを本番で運用する際に考慮すべき基本的な 5 つのこと

Amazon SQS は可用性やスケーラビリティの高いメッセジキューサービスであり、AWS の代表的なサービスの 1 つと言えるでしょう。ところが、本番の運用に耐えられるアプリケーションにしようと思うと考えることが意外に多いものです。本エントリーでは簡単なサンプルアプリケーションをベースに、本番で運用するために考慮すべき点・注意点について見ていきます。題材として扱うのが SQS なだけで、SQS 以外を使ったアプリケーションにも応用できる内容もあるでしょう。なお、SQS には Standard queue と FIFO queue がありますが、Standard queue を使う前提とします。アジェンダは次のとおりです。サンプルアプリケーション 1. ログ 2. At-least-once delivery と visibility timeout 3. デプロイ 4. 異常系 5

lepton9 2020/10/19

リンク

API Gateway 開発者に読んでほしい、意味がわかると便利な実行ログ - Qiita

API Gateway (REST API) では、開発やトラシューに役立つ実行ログ (Execution Logs) を出力することができます。 AWS サポートに問い合わせる際にも、この実行ログがあるとスムーズです。実行ログは、ステージから設定できます。設定後、API Gateway にリクエストを投げると、CloudWatch Logs に出力されます。ロググループ名は、API-Gateway-Execution-Logs_<API ID>/<ステージ名> です。こちらの実行ログの内容を解説していきます。リクエスト/レスポンス API Gateway に Postman から以下のようにリクエストを投げます。パスパラメータ groupId=111、クエリパラメータ userId=222、本文に name=hoge を指定しています。 API Gateway はこのリクエス

lepton9 2020/10/08

リンク

3〜4時間でAWSの監視系のサービス一気に学べたらコスパ良いと思いませんか | DevelopersIO

突然ですが、以下の機能がそれぞれどういうものかすべてご存知でしょうか？ CloudWatch ServiceLens X-Ray CloudWatch Contributor Insights CloudWatch Synthetics CloudWatch Container Insights CloudWatch Logs Insights CloudWatch メトリクス Metric Math 検索式カスタムメトリクス CloudWatch ダッシュボード CloudWatch 異常検出（Anomaly Detection） CloudWatch 埋め込みメトリックフォーマット CloudWatch アラーム異常検出に基づいたアラーム複合アラーム私はわからなかったですね。ここ 1〜2年のCloudWatch系のアップデート量は凄まじいなと個人的には思っていて、Cloud

lepton9 2020/09/17

リンク

AWS Lambda関数の状態の追跡 | Amazon Web Services

Amazon Web Services ブログ AWS Lambda関数の状態の追跡本投稿は、AWS Lambda の Senior Developer Advocate, Chris Munns の寄稿によるものです。 AWS Lambda関数は、AWS Identity and Access Management（IAM）ロールやAmazon Virtual Private Cloud（Amazon VPC）、ネットワークインターフェイスなど、正常に実行するために他のAWSサービスのリソースを必要とすることがよくあります。関数を作成または更新すると、Lambdaはユーザーに代わって、関数の実行を可能にするのに必要なリソースをプロビジョニングします。ほとんどの場合、このプロセスは非常に高速で、関数を呼び出したり変更する準備はすぐにできます。ただし、この種のアクションで時間がかかってしま

lepton9 2020/08/25

リンク

はてなブックマーク

タグ

関連タグで絞り込む (20)

awsとmonitoringに関するlepton9のブックマーク (33)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

今週のはてなブックマーク数ランキング（2024年7月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス