タグ

alarmとcloudwatchに関するopparaのブックマーク (6)

  • Amazon CloudWatch アラームの大規模なクリーンアップを自動化する | Amazon Web Services

    Amazon Web Services ブログ Amazon CloudWatch アラームの大規模なクリーンアップを自動化する AWS リージョン全体で数千の Amazon CloudWatch アラーム がある中で、リージョンを跨いで価値の低いアラームや誤設定のアラームをすばやく特定したいとお考えですか? 数日間「ALARM」または「IN_SUFFICIENT」状態になっていて、再検討が必要なアラームを特定する方法をお探しですか? 価値の低いアラームをリージョン全体で確認し、定期的に削除してアラームコストを最適化するクリーンアップメカニズムが必要ですか? このブログでは、CloudWatch で価値の低いアラームのクリーンアップメカニズムを AWS アカウントのリージョン全体に大規模にデプロイする方法を探り、さまざまな種類の設定ミスや価値の低いアラームを特定することによって、お客様が

    Amazon CloudWatch アラームの大規模なクリーンアップを自動化する | Amazon Web Services
  • アラームを実行するデータポイントでアラーム状態が短時間だけOK状態に戻る際の誤報を抑制する | DevelopersIO

    データアナリティクス事業部の鈴木です。 CloudWatchアラームのアラームを実行するデータポイントを使って、アラーム状態が短時間だけOK状態に戻る際に誤報を抑制できるか検証してみました。 解決したいケース CloudWatchアラームでメトリクスを監視し、アラーム状態に遷移した際に通知などのアクションをトリガーするユースケースがあると思います。 例えば、以下のように、SQSのデッドレターキューにメッセージが入ると、通知するような仕組みなどです。 デッドレターキューにメッセージが入った際には、メッセージをポーリングしてメッセージの内容を確認することがあると思いますが、アラームがキューの表示されたメッセージの数などを監視しているような場合は、アラームの設定によってはポーリングの際に一度アラームがOK状態に戻ってしまい、メッセージが再び表示されると通知が飛んでしまうということが起こります。

    アラームを実行するデータポイントでアラーム状態が短時間だけOK状態に戻る際の誤報を抑制する | DevelopersIO
  • WordPressで発生した「No space left on device」に対応 - ヤマムギ

    CloudWatch Logsメトリクスフィルターで「No space left on device」を検知 前回、WordPressにアクセスできなくなったときに、Nginxのエラーログに「write() to “/var/log/nginx/access.log” failed (28: No space left on device) while logging request」とエラーが出力されていました。 ディスク容量がなくなってアクセスできなくなったようです。 CloudWatch Logsのメトリクスフィルターで「No space left on device」文字列を検知してアラームからSNSでメール送信するように設定していました。 そしてアラームが届きましたので、逼迫しているディレクトリを確認しました。 Amazon Linux2で逼迫しているディレクトリを確認 AMIか

    WordPressで発生した「No space left on device」に対応 - ヤマムギ
  • CloudWatch Synthetics の実行によって得られるメトリクスの種類を調べてみた | DevelopersIO

    CloudWatch Synthetics で確認できるメトリクスの項目の意味は以下のリンクに記載されています。記事では末尾のNoteで取り上げられている内容の意味を理解するために実際のメトリクスを元に確認します。 CloudWatch metrics published by canaries - Amazon CloudWatch Canaries that use either the executeStep() or executeHttpStep() methods from the Synthetics library also publish SuccessPercent and Duration metrics with the dimensions CanaryName and StepName for each step. DeepL翻訳 Synthetics ライブ

    CloudWatch Synthetics の実行によって得られるメトリクスの種類を調べてみた | DevelopersIO
  • CloudWatch AlarmですでにALARM状態のアラームでアラームを手動発生させる | DevelopersIO

    こんにちは、CX事業部 IoT事業部の若槻です。 今回は、Amazon CloudWatch AlarmですでにALARM状態のアラームでアラームを手動発生させる方法を確認してみました。 アラームを手動発生させてみる OK状態のアラームの場合 CloudWatchメトリクスに設定したアラームのアクションが、期待通りに動作するかどうかテストをしたい場合があります。 その時点でアラームがOK状態である場合は、以下のエントリで紹介されている方法でアラームの手動発生が可能です。 設定した CloudWatch Alarm をテストする方法 | DevelopersIO 実際に試してみます。 OK状態のアラームtestAlarm2を対象とします。 set-alarm-stateコマンドを実行します。--state-valueでALARMを指定することにより手動でALARM状態にさせます。 $ aw

    CloudWatch AlarmですでにALARM状態のアラームでアラームを手動発生させる | DevelopersIO
  • 定期実行するLambdaが「起動しなかったこと」を検知するCloudWatch Alarmを作る | DevelopersIO

    「1時間に1回起動するLambda」や「1日に1回起動するLambda」といった定期実行するLambdaが「起動しなかったこと」を検知するCloudWatch Alarmを作ってみました。 Lambdaを定期実行する仕組みをよく作ります。 1時間に1回起動する 1日に1回起動する これらのLambdaが「起動しなかった場合」に通知が欲しくなったので、CloudWatch Alarmを作ってみました。 実際にLambdaが起動しない事象に遭遇したことは無いですが、このAlarmがあると、「ちゃんと起動しているよね?」というモヤモヤが解消されます。万が一に気づける保険ですね。 おすすめの方 定期実行するLambdaが「起動しなかった場合」のCloudWatch Alarmを作りたい方 定期実行するLambdaとCloudWatch Alarmを作成する sam init sam init \

    定期実行するLambdaが「起動しなかったこと」を検知するCloudWatch Alarmを作る | DevelopersIO
  • 1