Size: a a a

Церковь метрик

2019 December 30

A

Andrey in Церковь метрик
а все, торможу, надо просто
resque_jobs_in_queue{instance="resque"}
источник

A

Andrey Afoninskiy in Церковь метрик
есть определенное значение (gauge), и мне нужно подсчитать сколько времени это значение было больше определенного порога - надо record rule создать я так понимаю?
источник

AS

Aleksey Shirokikh in Церковь метрик
yep
источник

MY

Mihail Yakubiv in Церковь метрик
всем привет!
вопрос по функциям graphite
собираю consumer lag кафки через collectd, скрипт на питоне и graphite
метрики в graphite собрались, LogStartOffset и LogEndOffset, per topic
хотел бы увидеть разницу LogStartOffset -  LogEndOffset, тоже per topic

для получения разницы между двумя графиками взял функцию diffSeries(старт_оффсета, конец_оффсета)
когда делаю вместо * название конкретного топика - показывает правильную цифру consumer lag
когда делаю wildcard * на месте топиков - получаю общую цифру по всем топикам, вместо разбивки по отдельным
источник

MY

Mihail Yakubiv in Церковь метрик
источник

MY

Mihail Yakubiv in Церковь метрик
подскажите, если кто сталкивался, каким образом взять разницу (diff) между двумя series в graphite, при этом сохранив разбивку по нодам (wildcard) ?
источник

MY

Mihail Yakubiv in Церковь метрик
или лучше это делать на стороне скрипта-коллектора?
в результате я хочу иметь график такого вида:
Топик1 = оффсет 100
Топик2 = оффсет 120
итд
источник

IE

Ivan EKbfh in Церковь метрик
Ivan EKbfh
Я ток щас заметил, что https://github.com/f1yegor/clickhouse_exporter переехал под крыло https://github.com/percona-lab/clickhouse_exporter (докерхаб не сменили) , но свежее оно не стало от этого

На митапе грят, что в декабре 19-го будет решение для https://github.com/ClickHouse/ClickHouse/issues/7369
закрыли, но релизом кх с этой штукой не пахнет
источник

VS

Vasilyev Sergey in Церковь метрик
Всем привет!
Подскажите пожалуйста а кто для себя нашел какое оправдание для деплоя прометея в тотже кластер за которым он наблюдает. А если с кластером какая-то беда произойдет. Как потом дебажить? ведь все лежит и прометей тоже? Или мы надеемся на то что у нас кластер не падает, а если падает, то ненадолго?
источник

Y

Yzzzi in Церковь метрик
Vasilyev Sergey
Всем привет!
Подскажите пожалуйста а кто для себя нашел какое оправдание для деплоя прометея в тотже кластер за которым он наблюдает. А если с кластером какая-то беда произойдет. Как потом дебажить? ведь все лежит и прометей тоже? Или мы надеемся на то что у нас кластер не падает, а если падает, то ненадолго?
Я не нашёл такому оправдания, поэтому выделил отдельных пром-графана-алертница, которые мониторят кластер снаружи
источник

Y

Yzzzi in Церковь метрик
кстати, если кто-нибудь таким тоже занимался, как перебороли rbac-proxy kube-state-metrics? а то я с ней бодался-бодался, кроме Unauthorized ничего не добился
источник

A

Andor in Церковь метрик
Vasilyev Sergey
Всем привет!
Подскажите пожалуйста а кто для себя нашел какое оправдание для деплоя прометея в тотже кластер за которым он наблюдает. А если с кластером какая-то беда произойдет. Как потом дебажить? ведь все лежит и прометей тоже? Или мы надеемся на то что у нас кластер не падает, а если падает, то ненадолго?
Можно несколько прометеев, друг друга мониторящих
источник

Y

Yzzzi in Церковь метрик
Andor
Можно несколько прометеев, друг друга мониторящих
гонять все метрики из одного прометея в другой не очень хорошая идея
источник

A

Andrey Afoninskiy in Церковь метрик
@freeseacher я на самом деле от фонаря написал поэтому просто хочу уточнить - как думаешь, заработает или нет :) (когда еще данные накопятся протестить...)
groups:
   - name: duration_p01less50
     interval: 1m
     rules:
       # stores metric where success if p01 latency less than 50 ms
       - record: mambu:quant01_less50:up
         expr: histogram_quantile(0.1, sum by (le) (rate(mambu_request_duration_milliseconds_bucket[5m]))) < bool 50
       # stores uptime of 1 minute range where sum of successes is not zero
       - record: mambu:quant01less50:up_minutes
         expr: clamp_max(sum_over_time(mambu:quant01_less50:up[1m]), 1)
   - name: rps_p01less50
     interval: 1m
     rules:
       # stores metric where success if amount of errors less than 20%
       - record: mambu:errrate_less02:up
         expr: (sum(rate(mambu_request_duration_milliseconds_count{status=~"[45].."}[5m])) / sum(rate(mambu_request_duration_milliseconds_count[5m]))) < bool 0.2
       # stores uptime of 1 minute range where sum of successes is not zero
       - record: mambu:errrate_less02:up_minutes
         expr: clamp_max(sum_over_time(mambu:errrate_less02:up[1m]), 1)
и когда количество минут есть - можно SLO отображать как-нибудь так: sum_over_time(mambu:errrate_less02:up_minutes[1d]) * 100 / (24 * 60)
источник

AS

Aleksey Shirokikh in Церковь метрик
интервал убери
источник

A

Andrey Afoninskiy in Церковь метрик
и вообще, я возмущен: во всяких датадогах (прости, господи) давно уже кнопочка есть "сделать sla как в гугле", а в проме приходится репу чесать и инет шерстить... не для того меня мама рожала (зачеркнуто) я в sre шел чтобы самому ковыряться (шутка)
источник

A

Andrey Afoninskiy in Церковь метрик
какой из них?
источник

AS

Aleksey Shirokikh in Церковь метрик
оба
источник

A

Andrey Afoninskiy in Церковь метрик
я думал идея как раз евалюэйтить раз в минуту
источник

AS

Aleksey Shirokikh in Церковь метрик
Andrey Afoninskiy
я думал идея как раз евалюэйтить раз в минуту
неа. идея эволютить каждый evolution interval
источник