監視の閾値をどう設計していますでしょうか。
たとえば、アプリケーションサーバのステータスログ監視。
うちでは、下記の4項目でユニークをとって10件の閾値を越えたらアラート通知するようになっています。
- 日にち
- ステータスコード
- vhost
- パス
日に1,2件しか発生しないエラーは無視して、多く発生するエラーに対して優先的に対応するという思想です。
この設計で問題になるのは以下の点かと思います。
- 日に1,2件しか発生しないけど、致命的なエラーの発見が遅れる
- 値の変化を見ないといつエラーが発生したのか分かりにくい
- アクセスが少ないパスのエラーに気がつきにくい
- 特定パスだけでなく全体的にエラーになっているときにわかりい
正規表現でパスやvhost毎に閾値を変えられるようにしてはいますが、設定漏れがあったりしてなんとかしたいところ。