Size: a a a

Церковь метрик

2021 April 27

AS

Aleksey Shirokikh in Церковь метрик
я пока тоже не уверен что смогу быть в питере но постараюсь
источник

[K

[IPT] Dmitry Knyazev in Церковь метрик
Что делать, когда алертов в проме через чур много, некоторые алертят не часто и не долго, когда мониторинг начинает превращаться в фарш из алертов? Может есть что-то типа adaptive alerting?
источник
2021 April 28

rd

rus dacent in Церковь метрик
источник

AS

Aleksey Shirokikh in Церковь метрик
sli?
источник

A

Andrey in Церковь метрик
Может пора подкрутить пороги? Если алерт есть, но реакции на каждый нет, значит он алертит не на то или слишком рано.
источник

E

Evgеnу in Церковь метрик
Эскалация?
И заявки в сервисдеск не с первого шага?
источник

S

Slach in Церковь метрик
честно, у меня всегда подгорает в такой ситуации
когда люди ставят "mute" или начинают говорить что "алерты не правильные"

если ваш мониторинг превращается в фарш из алертов
значит вы просто не хотите разбираться с причинами этих алертов и фиксить либо причины. либо алерты (что тоже бывает)

ну как пример допустим вы мониторите CPU
но вообще ситуации когда 100% CPU это нормально, есть куча случаев когда мы ДОЛЖНЫ выжирать все доступное CPU эффективно
как минимум в prometheus надо for: 10m выставить чтобы быть уверенным что у вас действительно отжирается CPU
и прописать какие то исключения из этого, как в большую так и в меньшую сторону
чтобы понимать на каких нодах CPU можно отжирать а на каких это так себе тема...
для этого надо ваш проект знать
источник

vk

vladimir kolobaev in Церковь метрик
Зачастую, если метрика перешла за порог, по ней не стоит сразу же отправлять уведомление, а стоит подождать какой-то осмысленный "pending interval". И этот подход действительно снизит количество уведомлений по единичным пикам на графиках, но этот подход не единственный.
Для начала было бы здорово уменьшить количество сообщений, и информации в них. Как? Достаточно просто - можно вместо сообщений о возвращении в ОК, заметь на ✅: в Slack - выставлять её можно в качестве "реакции на сообщение"; в телеге - редактировать первоначальное сообщение и добавлять её вниз.
Что касается уменьшения контекста в сообщении - то его "по возможности" лучше всего прятать в тред к сообщению.
Так же есть различные подходы по наследованию триггеров друг от друга, и прочее.
Если очень захотеть, то из фарша из алертов можно сделать мясокомбинат. :))
источник

MM

Mikhail Mik in Церковь метрик
Всем привет. Прометеус жрет безбожно память 4-5 гигов. Что можно подкрутить, чтобы поменьше жрал?
источник

AT

Alexander Tataurov in Церковь метрик
1. Это абсолютно смешные цифры
2. Какой ingestion rate у вас?
источник

OK

Oleg Kalinin in Церковь метрик
посмотреть в сторону VictoriaMetrics =)
источник

MM

Mikhail Mik in Церковь метрик
Щас посмотрю
источник

PJ

Philip J. Fry in Церковь метрик
✅ - выглядит красиво, но не везде обрабатывается корректно. Например если в редмайне скопировать Алерт из телеграмм с символом ✅, все что написано после, будет отброшено при сохранении комментария
источник

TF

Terry Filch in Церковь метрик
это жи проблема redmine
источник

PJ

Philip J. Fry in Церковь метрик
Не спорю, я хотел скорее не претензию к подходу высказать, а предупреждение, что такое может быть )
источник

TF

Terry Filch in Церковь метрик
к.м.к., стоит подумать об переезде на что-то живее, чем redmine. Свою задачу он выполняет, но что бы расширить функционал - пачка плагинов нужна, а при апдейтах еще и совместимости почти нет с новыми версиями redmine.

Говорю из личного опыта
источник

VS

Vladimir Smirnov in Церковь метрик
Звучит как баг в работе с юникодом у редмайна. Стоит им точно завести issue
источник

G

GithubReleases in Церковь метрик
grafana/grafana tagged: v7.5.5
Link: https://github.com/grafana/grafana/releases/tag/v7.5.5
Release notes:
release v7.5.5
источник

TF

Terry Filch in Церковь метрик
похоже на баг старой версии, уже в лс пообщались
источник

[K

[IPT] Dmitry Knyazev in Церковь метрик
малая доля правды в этом есть. но я скорее про зависимости итп. например, падает нода сервиса целиком и валится куча ненужных алертов типа: не работает salt-minion, нет соединения с х, недоступна шара итп
источник