Size: a a a

Церковь метрик

2021 February 04

ГГ

Гандоний Глаз... in Церковь метрик
задача - выбрать самые долгие транзакции transaction_duration и вывести их количество transaction_count
источник

AV

Aliaksandr Valialkin in Церковь метрик
Гандоний Глаз
Благодарю, за столь развернутый ответ. Я (мне так кажется), решил задачу очень похоже, но проще:

with (
 cf={app="$app", transaction_type="$transaction_type", host=~"$host",subtype=~"$subtype",subtype!~"all"},
)

topk_avg(3, transaction_duration{cf}) * 0 + on(transaction_name) transaction_cnt{cf}
Решение выглядит норм
источник

ГГ

Гандоний Глаз... in Церковь метрик
выборку можно сделать более точной, если добавить integrate() ?

topk_max(3, integrate(transaction_duration{cf}))
источник

S

Stefan in Церковь метрик
добрый день
кто-то настраивал statsd-proxy?
источник

VB

Viktor Bashkatov in Церковь метрик
[IPT] Dmitry Knyazev
а кто-то из QA есть? какие инструменты для работы и представления метрик используете при нагрузочном тестировании? всё тоже самое? графана, пром, статсд, итп?
Есть. Для сборки результатов выполнения теста (сколько было запросов, сколько упало, какое время выполнения и т.д.) обычно используют связку InfluxDB + Grafana - в сообществе QA Load есть много материалов на эту тему.  На одном из проектов заказчик использует Prometheus, потому делали дашборд для отображения результатов теста под пром.

Опыт составления таких дашбордов небольшой, потому назвать все подводные камни и сказать, что лучше использовать, не смогу. Сам сталкивался со следующим.

Для прома нужно учитывать scrape_interval - тест может закончиться между скрейпами, потому нужно будет немного подержать коннект, чтобы точно все метрики были сняты.

У InfluxDB 1.8.3 словил отказ писать метрики, мол, место кончилось, хотя места хватало, - помог рестарт сервиса. Ещё нюанс - как именно писать метрики, чтобы их кверить в дашборде. Можно настроить [[graphite]] в influxdb.conf, а можно приделать к записываемым данным дополнительные символы, чтобы в графане селектить с использованием регулярок. Стоит ли ставить версию 2+ и использовать Flux - отдельная история.

Сбор метрик с нагружаемых машин - тут уж надо узнавать, что использует заказчик и что он готов поставить. На проекте с промом используем Node exporter и JMX exporter с готовыми дашбордами.
источник

[K

[IPT] Dmitry Knyazev in Церковь метрик
Viktor Bashkatov
Есть. Для сборки результатов выполнения теста (сколько было запросов, сколько упало, какое время выполнения и т.д.) обычно используют связку InfluxDB + Grafana - в сообществе QA Load есть много материалов на эту тему.  На одном из проектов заказчик использует Prometheus, потому делали дашборд для отображения результатов теста под пром.

Опыт составления таких дашбордов небольшой, потому назвать все подводные камни и сказать, что лучше использовать, не смогу. Сам сталкивался со следующим.

Для прома нужно учитывать scrape_interval - тест может закончиться между скрейпами, потому нужно будет немного подержать коннект, чтобы точно все метрики были сняты.

У InfluxDB 1.8.3 словил отказ писать метрики, мол, место кончилось, хотя места хватало, - помог рестарт сервиса. Ещё нюанс - как именно писать метрики, чтобы их кверить в дашборде. Можно настроить [[graphite]] в influxdb.conf, а можно приделать к записываемым данным дополнительные символы, чтобы в графане селектить с использованием регулярок. Стоит ли ставить версию 2+ и использовать Flux - отдельная история.

Сбор метрик с нагружаемых машин - тут уж надо узнавать, что использует заказчик и что он готов поставить. На проекте с промом используем Node exporter и JMX exporter с готовыми дашбордами.
ясно спасибо. мне для представления в общих чертах, какие навыки нужны с какими инструментами. получается это такой же админдевопс только усиленный пониманием QA
источник

ВЕ

Валентин Еловский... in Церковь метрик
Приветствую. Может кто сталкивался с тем, что Victoria Metrics работала, показывала метрики, а когда их стало приходить больше - она их выводить в графану перестала? Ситуация выглядит так: кластерная версия виктории, есть дашборд в графане. Запрос в дашборде выполняется около двух минут, а когда стало еще больше данных - он стал практически мгновенно выводить No Data. Т.е. похоже, что упираемся в какой-то лимит, но нет нигде в логах никаких ошибок, поэтому непонятно, в какой же
источник

ВЕ

Валентин Еловский... in Церковь метрик
Судя по дашборду с внутренними метриками виктории данные в неё поступают, поэтому грешу именно на вывод их - на компонент vmselect или на какие-то странности в vmstorage
источник

AL

Anatoly Laskaris in Церковь метрик
Валентин Еловский
Приветствую. Может кто сталкивался с тем, что Victoria Metrics работала, показывала метрики, а когда их стало приходить больше - она их выводить в графану перестала? Ситуация выглядит так: кластерная версия виктории, есть дашборд в графане. Запрос в дашборде выполняется около двух минут, а когда стало еще больше данных - он стал практически мгновенно выводить No Data. Т.е. похоже, что упираемся в какой-то лимит, но нет нигде в логах никаких ошибок, поэтому непонятно, в какой же
Странно что логов нет. Логлевел меняли?
источник

AL

Anatoly Laskaris in Церковь метрик
На дебаг например. Хоть что-то должно быть
источник

ВЕ

Валентин Еловский... in Церковь метрик
Anatoly Laskaris
На дебаг например. Хоть что-то должно быть
Щас попробую, просто в хелпе про логлевел указано Possible values: INFO, WARN, ERROR, FATAL, PANIC (default "INFO") - типа что дефолт самый разговорчивый и так :)
источник

AN

Artem Navoiev in Церковь метрик
да самывй разговорчивый
источник

RK

Roman Khavronenko in Церковь метрик
Валентин Еловский
Судя по дашборду с внутренними метриками виктории данные в неё поступают, поэтому грешу именно на вывод их - на компонент vmselect или на какие-то странности в vmstorage
можно скрины дашбордов покидать. Там должны быть панели которые показывают использование ресурсов, скорость выполнения запросов и т.д.
источник

AV

Aliaksandr Valialkin in Церковь метрик
Гандоний Глаз
выборку можно сделать более точной, если добавить integrate() ?

topk_max(3, integrate(transaction_duration{cf}))
если в transaction_duration запсывается длительность каждой отдельной транзакции, то лучше вместо integrate испльзовать sum_over_time. Если же там хранится сумма длительностей всех транзакций (aka counter), то никаких дополнительных фукнций добавлять не нужно - достаточно transacton_duration{cf}
источник

ГГ

Гандоний Глаз... in Церковь метрик
Спасибо, попробую
источник

AZ

Alexander Zobnin in Церковь метрик
Ivan EKbfh
Какая *.0 версия у графаны была стабильна?)
1.x.0 довольно стабильны.
источник

IE

Ivan EKbfh in Церковь метрик
Alexander Zobnin
1.x.0 довольно стабильны.
Да, но щас уже 7.х.0
источник

AS

Aleksey Shirokikh in Церковь метрик
Ivan EKbfh
Да, но щас уже 7.х.0
это самоирония
источник

Wo

Womchik on Zabbix in Церковь метрик
стабильны в чём?
источник

vk

vladimir kolobaev in Церковь метрик
Stefan
добрый день
кто-то настраивал statsd-proxy?
Привет, а ты про какой то конкретный statsd-proxy спрашиваешь? Или это общий вопрос из разряда - такие вообще есть? Как с ними жить?
источник