全AWSエンジニアに捧ぐ、CloudWatch 設計・運用 虎の巻 / CloudWatch design and operation bible
![全AWSエンジニアに捧ぐ、CloudWatch 設計・運用 虎の巻 / CloudWatch design and operation bible](https://cdn-ak-scissors.b.st-hatena.com/image/square/77a15baa987899700de38cb3547cfb078fd9a19e/height=288;version=1;width=512/https%3A%2F%2Ffiles.speakerdeck.com%2Fpresentations%2F54f978ed315147a1a61a206c21fe6995%2Fslide_0.jpg%3F25809681)
こんにちは、CX事業本部 IoT事業部の若槻です。 今回は、Amazon CloudWatch AlarmですでにALARM状態のアラームでアラームを手動発生させる方法を確認してみました。 アラームを手動発生させてみる OK状態のアラームの場合 CloudWatchメトリクスに設定したアラームのアクションが、期待通りに動作するかどうかテストをしたい場合があります。 その時点でアラームがOK状態である場合は、以下のエントリで紹介されている方法でアラームの手動発生が可能です。 設定した CloudWatch Alarm をテストする方法 | DevelopersIO 実際に試してみます。 OK状態のアラームtestAlarm2を対象とします。 set-alarm-stateコマンドを実行します。--state-valueでALARMを指定することにより手動でALARM状態にさせます。 $ aw
困っていた内容 エラー発生時にのみ記録されるメトリクスを監視対象として CloudWatch アラームを構成しています。 エラーのメトリクスが発生してアラーム状態に遷移したあと、設定した評価期間(1分、5分 etc)を経過するとすぐに OK 状態に戻ると想定していましたが、しばらく OK 状態に戻らず数分間のラグが生じます。 この理由と対処法を教えてください。 どう対応すればいいの? 原因について これには CloudWatch アラームの仕様と、監視対象メトリクスのタイプが関係しています。 上記例のように「エラー時にのみ記録される」タイプのメトリクスでは、メトリクスが発生していない部分はデータの欠落として扱われます。 そのため下記の「データ欠落時の延伸動作」が働き、すぐには OK 状態に戻らないのです。 【AWSドキュメント】データが欠落した場合のアラーム状態の評価方法 からの抜粋: ア
皆様こんにちは。 今回はCloudFormationを利用して高可用性アーキテクトの構築をしていきます。 この記事ではCloudFormationよりCloudWatchAlarmの作成を行います。 このブログはCloudFormationによるCloudWatchAlarmの作成をする上での知識を記事としてまとめ再確認し、皆様と共有するため作成します。 1.高可用性アーキテクト構築目次 目次はこちら 2.CloudWatchとは Amazon CloudWatch は、DevOps エンジニア、デベロッパー、サイト信頼性エンジニア (SRE)、IT マネージャー、および製品所有者のために構築されたモニタリング/オブザーバビリティサービスです。CloudWatch は、アプリケーションをモニタリングし、システム全体におけるパフォーマンスの変化に対応して、リソース使用率の最適化を行うためのデ
AWS Chatbot とは ざっくりと言ってしまうと、AWS上で起きた事象を Slack や Amazon Chime に通知したり、スラッシュコマンドなどで操作できたりするものです。 本稿執筆時点では、ベータ版のため、この資料の 1.10 Beta Service Participation に則り、これ以上の言及は致しません。 背景 現時点では、Slack と Amazon Chime のみの対応のため、Microsoft Teams 用として AWS Chatbot っぽいものを作ろうということです。 ベータが外れたころに採用されてるといいなぁと願いながら... レシピ 登場人物 Microsoft Teams AWS Lambda Amazon SNS Amazon CloudWatch Slackでいうところのスラッシュコマンドのようなものを実装するなら Amazon API
背景 CloudFormationでCloudWatchAlarmを作成するために公式ドキュメント見ていて、一瞬よくわからなかったパラメータや、地味に使いそうなパラメータがあったので備忘録的にまとめます。 1. EvaluationPeriods と DatapointsToAlarm ・EvaluationPeriods:閾値を超えたかどうかを評価する直近の評価期間 ・DatapointsToAlarm:アラームを発生させるデータポイント数 評価期間中、(EvaluationPeriods - DatapointsToAlarm)回は閾値を超えてもアラームは発生しない。 例えば…
構成や環境などによって監視したいメトリクスも異なるかとは思いますので、必要なメトリクスがなかったり、不要なメトリクスがある場合は、任意でカスタマイズして頂ければと思います。 テンプレートファイル 次は実際のテンプレートファイルです。 各種設定を共通化するため「Parameters」を使用しているので、以下の「XXXXXXXX」の部分だけ、ご自身の環境に合わせて変更頂ければ Alarm の設定が可能になっています。 「Parameters」の一番上で定義している「SystemName」だけは、CloudWatch アラームのマネジメントコンソールから見やすいように追加した、必須ではないパラメータなので、もし不要であれば任意で外してしまってください。 ※ 外した場合は「Resources」の「!Sub ${SystemName}」も全て消してください。 他にも閾値や閾値超過回数、欠如データの扱
概要 AWS CloudWatch Logsの表示が見にくすぎるというのは全人類が抱える問題だと思いますが、それを見やすくするCLIツールを作りました。 既にawslogsというツールがあり、こちらも便利なのですがロググループをまたいでtailすることが出来なかったので自分で作りました。 あと個人的にはPythonのCLIツールをグローバルに入れたくな... 他にもいくつかツールあり、そちらと比べて機能的に大きく異なるわけではないので、今困ってない人は良いと思います。色合いが良い感じとかふわっとした部分は結構違うと思います。 Utern 以下に置いてあります。 https://github.com/knqyf263/utern sternというKubernetesでログを表示するのに使われる便利なツールがあるのですが、それを参考に作ったのでuternというツール名にしました。意味は特にない
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く