Size: a a a

2019 March 25

DM

Dmitry Mischenko in DevOps Moscow
@Frod0x https://github.com/braedon/prometheus-es-exporter - можно просто OOM из логов вытащить.
По поводу метрик - container_memory_failcnt -  косвенно указывает на него
источник

DM

Dmitry Mischenko in DevOps Moscow
если у вас не пром - идея в целом такая же для написания своей пепяки)
источник

AA

Alexander Akilin in DevOps Moscow
Dmitry Mischenko
@Frod0x https://github.com/braedon/prometheus-es-exporter - можно просто OOM из логов вытащить.
По поводу метрик - container_memory_failcnt -  косвенно указывает на него
оом, гад, не всегда в логах появлялся в моей практике. хотя, не исключено, что я тупое чмо и что-то делал не такъ
источник

V

Vit in DevOps Moscow
Пром. но на логи завязываться очень не хочется. es-то нет) ну и короче хочется чисто метрики.

разрабам хочется надёжно мониторить утечки памяти(уперлись в лимит и из-за этого рестарт)
источник

DN

Dmitry Nagovitsin in DevOps Moscow
Dmitry Mischenko
@Frod0x https://github.com/braedon/prometheus-es-exporter - можно просто OOM из логов вытащить.
По поводу метрик - container_memory_failcnt -  косвенно указывает на него
для оома есть dmesg_exporter
источник

DN

Dmitry Nagovitsin in DevOps Moscow
Vit
Пром. но на логи завязываться очень не хочется. es-то нет) ну и короче хочется чисто метрики.

разрабам хочется надёжно мониторить утечки памяти(уперлись в лимит и из-за этого рестарт)
я бы мониторил профиль расхода памяти
источник

DM

Dmitry Mischenko in DevOps Moscow
лимиты кстати, есть как метрики в проме
источник

DN

Dmitry Nagovitsin in DevOps Moscow
достаточно мониторить паттерны типа резко стало меньше
источник

DM

Dmitry Mischenko in DevOps Moscow
т.е. можно сказать - резко стало меньше + уперлись в лимит
источник

DN

Dmitry Nagovitsin in DevOps Moscow
Dmitry Mischenko
т.е. можно сказать - резко стало меньше + уперлись в лимит
ну, скорее всего приходил оом
источник

DN

Dmitry Nagovitsin in DevOps Moscow
или гц )
источник

V

Vit in DevOps Moscow
Dmitry Nagovitsin
достаточно мониторить паттерны типа резко стало меньше
а что такое "резко меньше/больше" ? может это просто пользователи пришли и это ок.
вы пробовали? тот ещё гемор) и пока в лимит не упёрлись , по сути, похрену
источник

DN

Dmitry Nagovitsin in DevOps Moscow
Vit
а что такое "резко меньше/больше" ? может это просто пользователи пришли и это ок.
вы пробовали? тот ещё гемор) и пока в лимит не упёрлись , по сути, похрену
ну у тебя есть же количество памяти на ноде?
источник

DN

Dmitry Nagovitsin in DevOps Moscow
самое простое, что я бы сделал - впилил аптайм в приложение
источник

DM

Dmitry Mischenko in DevOps Moscow
Виталя явно хочет уменьшить кол-во false positives меньшими затратами)
источник

DN

Dmitry Nagovitsin in DevOps Moscow
просто таймер тикает, сбросился - значит был рестарт
источник

DM

Dmitry Mischenko in DevOps Moscow
если у тебя деплой 5 раз в день - аптайм - такое себе)
источник

AA

Alexander Akilin in DevOps Moscow
Dmitry Mischenko
Виталя явно хочет уменьшить кол-во false positives меньшими затратами)
мне кажется, это справедливая хотелка :)
источник

DM

Dmitry Mischenko in DevOps Moscow
Поэтому и говорю - у cadvisor есть метрики лимитов, также есть container_memory_failcnt. Используя суммарную метрику, явно флапать будет меньше (хотя есть шанс пропустить событие, что в целом не критично)
источник

DN

Dmitry Nagovitsin in DevOps Moscow
Dmitry Mischenko
если у тебя деплой 5 раз в день - аптайм - такое себе)
если у тебя деплой пять  раз в день, то скорее всего у тебя есть silence в мониторинге на время деплоя
источник