Телеграмм чат группы devopsmoscow страница 454

12:56пожаловаться #1

DM

если у вас не пром - идея в целом такая же для написания своей пепяки)

12:58пожаловаться #2

AA

Alexander Akilin in DevOps Moscow

Prometheus Elasticsearch Exporter. Contribute to braedon/prometheus-es-exporter development by creating an account on GitHub.

@Frod0x https://github.com/braedon/prometheus-es-exporter - можно просто OOM из логов вытащить.
По поводу метрик - container_memory_failcnt - косвенно указывает на него

GitHub

braedon/prometheus-es-exporter

оом, гад, не всегда в логах появлялся в моей практике. хотя, не исключено, что я тупое чмо и что-то делал не такъ

13:02пожаловаться #3

V

Vit in DevOps Moscow

Пром. но на логи завязываться очень не хочется. es-то нет) ну и короче хочется чисто метрики.

разрабам хочется надёжно мониторить утечки памяти(уперлись в лимит и из-за этого рестарт)

13:03пожаловаться #4

DN

Prometheus Elasticsearch Exporter. Contribute to braedon/prometheus-es-exporter development by creating an account on GitHub.

@Frod0x https://github.com/braedon/prometheus-es-exporter - можно просто OOM из логов вытащить.
По поводу метрик - container_memory_failcnt - косвенно указывает на него

GitHub

braedon/prometheus-es-exporter

для оома есть dmesg_exporter

13:03пожаловаться #5

DN

Vit

Пром. но на логи завязываться очень не хочется. es-то нет) ну и короче хочется чисто метрики.

разрабам хочется надёжно мониторить утечки памяти(уперлись в лимит и из-за этого рестарт)

я бы мониторил профиль расхода памяти

13:03пожаловаться #6

DM

лимиты кстати, есть как метрики в проме

13:04пожаловаться #7

DN

достаточно мониторить паттерны типа резко стало меньше

13:04пожаловаться #8

DM

т.е. можно сказать - резко стало меньше + уперлись в лимит

13:05пожаловаться #9

DN

т.е. можно сказать - резко стало меньше + уперлись в лимит

ну, скорее всего приходил оом

13:05пожаловаться #10

DN

или гц )

13:05пожаловаться #11

V

Vit in DevOps Moscow

Dmitry Nagovitsin

достаточно мониторить паттерны типа резко стало меньше

а что такое "резко меньше/больше" ? может это просто пользователи пришли и это ок.
вы пробовали? тот ещё гемор) и пока в лимит не упёрлись , по сути, похрену

13:05пожаловаться #12

DN

Vit

а что такое "резко меньше/больше" ? может это просто пользователи пришли и это ок.
вы пробовали? тот ещё гемор) и пока в лимит не упёрлись , по сути, похрену

ну у тебя есть же количество памяти на ноде?

13:06пожаловаться #13

DN

самое простое, что я бы сделал - впилил аптайм в приложение

13:06пожаловаться #14

DM

Виталя явно хочет уменьшить кол-во false positives меньшими затратами)

13:07пожаловаться #15

DN

просто таймер тикает, сбросился - значит был рестарт

13:07пожаловаться #16

DM

если у тебя деплой 5 раз в день - аптайм - такое себе)

13:07пожаловаться #17

AA

Alexander Akilin in DevOps Moscow

Виталя явно хочет уменьшить кол-во false positives меньшими затратами)

мне кажется, это справедливая хотелка :)

13:08пожаловаться #18

DM

Поэтому и говорю - у cadvisor есть метрики лимитов, также есть container_memory_failcnt. Используя суммарную метрику, явно флапать будет меньше (хотя есть шанс пропустить событие, что в целом не критично)

13:11пожаловаться #19

DN

если у тебя деплой 5 раз в день - аптайм - такое себе)

если у тебя деплой пять раз в день, то скорее всего у тебя есть silence в мониторинге на время деплоя