PR

アラームをミュートできるようになった!AWS CloudWatch

alarm muting rule クラウドニュース

この業界に関わる人の中には、以下のような経験をされたことがある方が多くいらっしゃると思います。

  • 「深夜にメンテナンス作業をしていたら、アラートが鳴りっぱなしで大変だった…」
  • 「デプロイのたびに通知がどっさり来て、本当に大事なアラートを見逃しそうになった…」

システムを運用していると、

ちょっと黙って!今作業中だから!

と言いたくなる通知ってありますよね。
大量の、しかも対応不要のアラートって、本当イライラさせられますよね。

そんな悩みをスッキリ解決してくれる新機能が、AWSから登場しました!

その名も「Amazon CloudWatch Alarm Mute Rules(アラームミュートルール)」です。

まずは用語の整理から

まずは基本的な用語の整理から。

  • Amazon CloudWatch
    AWSのシステムやアプリの状態を監視する統合サービス
    CPU使用率などを常に見張り、異常があれば通知(アラート)を送るといった昔からの機能から、アプリケーション監視、AIを活用した機能など。

    個人的には、特に最近の進化が凄まじく、機能が無茶苦茶充実していますね。
  • アラーム
    「この数値がこの値を超えたら知らせて」と飛ばされる警告のこと
    例えば

    「エラーが5回以上出たらメールを送る」
    「サイトが10秒以上反応なかったらslackで連絡する」

    など。

    わたしたちの救世主であり、安眠妨害の犯人でもあります。
  • アラート疲れ(Alert Fatigue)
    通知が多すぎて、本当に重要なアラートを見逃してしまう状態のこと
    「また鳴ってる…」と慣れてしまう、いわゆる「オオカミ少年」が一番怖いパターンです
  • メンテナンスウィンドウ
    システムのメンテナンスや更新作業を行う、あらかじめ決められた時間帯のこと
    この時間中は意図的にシステムをいじるので、アラートが出るのは「想定内」と考えます

Alarm Mute Rulesって何?

一言でいうと、

たとえば…

  • 毎週日曜の深夜2時〜4時は定期的にメンテナンスするので、その間はアラートをミュートしたい
  • 今夜、新機能のデプロイをするので、その間の通知を止めたい
  • 営業時間外(夜間・休日)は通知を飛ばさないようにしたい

こういった「わかってて作業してる時間」のアラートを、ルールとして設定し、まとめてアラートを停止することができます。

何が嬉しいの?ポイントをまとめてみた

✅ 1回限り・繰り返し、どちらも設定できる

  • 「今夜だけ」という1回限りのミュート
  • 「毎週日曜の深夜」という繰り返しのミュート

いずれのパターンも設定できます。
定期メンテナンスがある場合、毎回手動で対応しなくてよくなります。

✅ 最大100個のアラームをまとめてミュートできる

1つのルールで最大100個のアラームをまとめて対象にできます。

「このシステム全体の通知を止めたい」という場面でも、一括で対応できます。

✅ ミュート終了後に自動でアクションが実行される

ミュート期間が終わると、その間に発生していたアラーム状態に応じて、自動的にアクション(通知など)がトリガーされます。

「ミュートしてたら問題を見逃した!」という事態を防ぐ仕組みになっています。

これ、手動でアラートを止めると割と発生しますよね。
「なんで、いつからこのアラート止まってるの!?」って、心臓止まりそうになります。

✅ スクリプトでの無理やり対応が不要になる

これまでは「メンテナンス中だけアラートを止める」ために、自前でスクリプトを組んで対応していたパターンもあったかと思います。
この機能があれば、そういった運用上のリスクや手間がなくなります。

まとめ

Amazon CloudWatch Alarm Mute Rulesを一言でいうなら、

「またいらない通知来た…無視無視」と慣れてしまうアラート疲れは、本当に大事な異常を見逃す原因になります。

ミュートすべき時間をあらかじめルール化しておくことで、「本当に重要なアラートだけに集中できる環境」を作れるのが、この機能の一番の価値だと思います。

現在、アラームのミュートに対応しているすべてのAWSリージョンで利用できます。
定期メンテナンスがあるチームは、ぜひ試してみてください!

タイトルとURLをコピーしました