Size: a a a

Церковь метрик

2021 June 08

z

z311 in Церковь метрик
для алертинга
источник

z

z311 in Церковь метрик
я уже не помню в какой версии
источник

z

z311 in Церковь метрик
отдельный контейнер пришлось сделать
источник

z

z311 in Церковь метрик
но это даааввннооооо было
источник

z

z311 in Церковь метрик
ну и лимиты этому рендеру надо задать, а то больно он агрессивный до оперативки
источник

z

z311 in Церковь метрик
(кол-во потоков ограничить, и сверху на контейнер еще лимиты)
источник

z

z311 in Церковь метрик
в остальном проблем не замечал
источник

c

citius in Церковь метрик
всем привет.

делаю алертинг в кубе, для примера алерт который бы срабатывал при превышении 80% использованию CPU контейнером относительно лимита ресурсов пытаюсь сделать так:

sum by (name, instance) (rate(container_cpu_usage_seconds_total{name!='',name!~".*POD.*"}[3m])) /
(container_spec_cpu_quota{name!='',name!~".*POD.*"} / 100000)


Обе части по отдельности рисуют графики, но вся формула в целом выдает ничего.
Предполагаю это потому, что сраниваю рейт по вектору с простым скалярным значением, либо после sum лейблы перестают совпадать.

подскажите плз где я накосячил.
источник

A

Andrey in Церковь метрик
в общем сделал так
sum(rate(nginx_http_request_duration_seconds_sum{host=~".*$domain"}[5m]))/sum(rate(nginx_http_request_duration_seconds_count{host=~".*$domain"}[5m]))
источник

AS

Aleksey Shirokikh in Церковь метрик
https://status.fastly.com/ плохо. но думаю все кто не в танке уже знают
источник

AF

Andrey F in Церковь метрик
Переслано от Andrey F
#hugOps
источник

k

krakazyabra in Церковь метрик
источник

J

Jora in Церковь метрик
да, лейблы не будут совпадать, нужно как-то так
sum by (name, instance) (rate(container_cpu_usage_seconds_total{name!='',name!~".*POD.*"}[3m])) / on (name, instance)
(container_spec_cpu_quota{name!='',name!~".*POD.*"} / 100000)
источник

c

citius in Церковь метрик
Спс, попробую
источник

LD

Lex Dolgov in Церковь метрик
Всем привет! Сперва суть вопроса...может кто уже решал такое =)
Как наименее безболезненно переделать Дашборд в графане от node_exporter-а под multivalue?

А если в деталях..Можно ли как то простэкировать линии в графане per $variable?

Сейчас строю график cpu...
Есть 6 query, по каждому хосту. Когда их суммируем (ну и приводим к процентам) - получается 100% и прекрасно видим потребление cpu для ОДНОГО хоста. Когда делам multivalue при выборе нескольких хостов - получается чушь, ибо он суммирует их все...и приводит к 100% оа по двум хостам... Решал уже кто-нибудь такое? Как быть...?

Можно, конечно, оставить только user-time и построить график только для него..но хочется полную загрузку видеть...
источник

ВА

Вадим Адамлюк... in Церковь метрик
Народ, а не подскажете, есть чат про, прости господи, забикс?
источник

Mk К in Церковь метрик
@ZabbixPro есть
источник

ВА

Вадим Адамлюк... in Церковь метрик
tnx
источник

П

Павел in Церковь метрик
Приветствую!
Кто-нибудь, кто использовал клауд графану, отправляя в неё метрики через remote_write, сталкивались ли с такой проблемой:
У меня метрики временами улетают в какие-то запредельные значения. Например, у node_exporter оперативная память показывается на уровне 30+ гб, хотя по факту 2гб
Причём, если смотреть через интерфейс локального прометеуса, то нет никаких скачков, а через графану вот такая жесть
источник

LD

Lex Dolgov in Церковь метрик
у меня было такое на локальных инстансах, когда данные не долетали... строилось все по irate, данные не долетели. потом долетели. irate отчитался, что большой скачок.
Как -нибудь в их хранилку можно палочкой потыкать? Может там все кривое?
А на стороне отправке - ошибок нет?
источник