Size: a a a

Церковь метрик

2021 August 03

AS

Aleksey Shirokikh in Церковь метрик
у меня такое есть
record:job:prometheus_remote_storage_delay_seconds:max5m
expr:(max_over_time(prometheus_remote_storage_highest_timestamp_in_seconds[5m]) - on(job, instance, tier) group_right() max_over_time(prometheus_remote_storage_queue_highest_sent_timestamp_seconds[5m]))
источник

AV

Aliaksandr Valialkin in Церковь метрик
Т.е. достаточно завести две метрики - максимальный таймстемп для заисанных данных и максимальный таймстемп для данных, доступных на чтение?
источник

AS

Aleksey Shirokikh in Церковь метрик
ну вот в проме уже реализовано вот так
источник
2021 August 04

S

Sergey in Церковь метрик
Привет. Юзаю Grafana + Influx
Хочу на оси X в обычном графике показывать tag вместо времени. Как это сделать?

делаю GROUP BY tag, точки на график ставятся, но не соединяются
источник

RT

Roman Trawin in Церковь метрик
Всем привет. Кто может подсказать есть вот такой алерт, который вычисляет все поды в состоянии Pending|Unknown|Failed и шлет инфу о них
- alert: KubernetesPodNotHealthy
     expr: min_over_time(sum by (namespace, pod) (kube_pod_status_phase{pod !~ ".*cron.*", phase=~"Pending|Unknown|Failed"})[1h:]) > 0
     for: 1h
     labels:
       severity: critical
     annotations:
       summary: Kubernetes Pod not healthy (instance {{ $labels.instance }})
       description: 'Pod has been in a non-ready state for longer than an hour.\n  VALUE = {{ $value }}\n  LABELS: {{ $labels }}'
Количество подов в этом выражении в одном кластере может быть в районе 27. Их них например 25 в состоянии ImagePullBackoff, остальные свалились в Error из-за ошибок в приложении. Нужно, чтобы из всего списка алерта KubernetesPodNotHealthy алерты шли только по Error подам, а ImagePullBackoff слались 1 раз в 24 часа.
Поды с ImagePullBackoff вычисляю так в отдельном алерте
expr: min_over_time(sum by(namespace, pod) (kube_pod_container_status_waiting_reason{reason="ImagePullBackOff"})[1h:]) > 0
Как можно из общего списка повисших подов вычесть поды в состоянии ImagePullBackoff? Различные аналогии из SQL в PromQL мне не помогли. Обычное вычитание (min_over_time(sum by (namespace, pod) (kube_pod_status_phase{pod !~ ".*cron.*", phase=~"Pending|Unknown|Failed"})[1h:]) > 0) - (min_over_time(sum by(namespace, pod) (kube_pod_container_status_waiting_reason{reason="ImagePullBackOff"})[1h:]) > 0) возвращает неправильный результат
источник

VS

V 🏴‍☠️ S in Церковь метрик
Уважаемые, а кто-то отправляет алерты из алертменеджера в жиру?
Есть ли какие то максимально умеющие в API жиры боты?
Интересует вариант, отличный от jiralert (недостаточный функционал).
источник

TF

Terry Filch in Церковь метрик
напиши свой ;)
источник

TF

Terry Filch in Церковь метрик
ну или тз на фрилансе - и желающих найдется много
источник

VS

V 🏴‍☠️ S in Церковь метрик
Да эт понятно=) Просто времени это займёт ух сколько. Не погромист я
источник

A

Anton in Церковь метрик
всем привет 👋

поднял кластер Алертменеджеров на двух ВМках

алертменеджер в контейнерах

вроде бы все собралось, но вебморда кажет адреса внутренней докерсети

насколько это нормально?
источник

A

Anton in Церковь метрик
может надо переналадить, чтобы ходило через внешний адерс или как-то иначе?

или все норм и в сетапе с докерами так оно и должно быть?
источник

G

GithubReleases in Церковь метрик
prometheus/prometheus tagged: 2.29.0-rc.1 / 2021-08-04
Link: https://github.com/prometheus/prometheus/releases/tag/v2.29.0-rc.1
Release notes:
Note for macOS users: Due to [changes in the upcoming Go 1.17](https://tip.golang.org/doc/go1.17#darwin),  

this is the last Prometheus release that supports macOS 10.12 Sierra.

*   [CHANGE] Promote `--storage.tsdb.allow-overlapping-blocks` flag to...
More
источник

PK

Pavel Kolobaev in Церковь метрик
Так  должно быть
У того кто пишет алерт в алертменеджер есть параметр external.url или похожее
источник

PK

Pavel Kolobaev in Церковь метрик
И чтобы кластре работал нормально нужн описать алерт в оба алертменеджера. оин догорятся кто пошлет нотифи
источник

A

Anton in Церковь метрик
источник
2021 August 05

G

GithubReleases in Церковь метрик
influxdata/kapacitor tagged: v1.6.2-rc0
Link: https://github.com/influxdata/kapacitor/releases/tag/v1.6.2-rc0
Release notes:
Early release to handle a security CVE in a library [https://nvd.nist.gov/vuln/detail/CVE-2020-26160](https://nvd.nist.gov/vuln/detail/CVE-2020-26160)

We will be moving most of the work planned for 1.6.2 to 1.6.3.
источник

k

kvaps in Церковь метрик
Есть идеи что могло произойти?
источник

PK

Pavel Kolobaev in Церковь метрик
Это вопрос с подвохом?
источник

TF

Terry Filch in Церковь метрик
ну ты прям с двух ног ворвался
источник

k

kvaps in Церковь метрик
нет
источник