監視の閾値の考え方1 - ふり返る暇なんて無いね

監視の閾値をどう設計していますでしょうか。

たとえば、アプリケーションサーバのステータスログ監視。
うちでは、下記の4項目でユニークをとって10件の閾値を越えたらアラート通知するようになっています。

日に1,2件しか発生しないエラーは無視して、多く発生するエラーに対して優先的に対応するという思想です。

この設計で問題になるのは以下の点かと思います。

正規表現でパスやvhost毎に閾値を変えられるようにしてはいますが、設定漏れがあったりしてなんとかしたいところ。

アクセスログ監視にはほかにも論点があるのだけれども、また書く。アクセスログ監視以外の閾値に関してもまた後で書く。