Привет.
Ребят, помогите разобраться с триггером, пжл.
Есть отношение двух метрик:
alias(asPercent(sumSeries(*.*.message.outgoing.delivery.*.*.*.*.count.succeeded.count), sumSeries(*.*.message.outgoing.send.*.*.*.*.count.succeeded.count)), 'SuccessRate')
в случае, если он < 80, делаем алерт.
Но вот проблема. Поскольку у нас процесс асинхронный значения первой и второй метрики каждую минуту могут занчительно отличаться, при этом, это не является проблемой с точки зрения работы процесса. Но в тоже время, это поражадет много алертов.
В Grafana это легко лечится условием "взять значение за сейчас минус 10 минут", т.е. среднее за последние 10 минут. И "ложных" алертов нет.
А как такое реализовать в Moira?
Если добавить к каждой из метрик из примера summarize за 10 минут, то Moira начинает делать странное - ровно раз в 10 минут триггер переходит в OK, затем через несколько секунд в ERORR и этот цикл повторяется каждые 10 минут.
Помогите, понять - почему и как пользоваться summarize в данном случае?