Телеграмм чат группы metrics

Всем привет.

Не хватает понимания как собирать метрики с удалённых площадок.

Есть несколько датацентров раскиданых по миру. В каждом дц есть несколько виртуалок с web-сервисами и просто сервисами (это винда), в перспективе будет кубер.
По прикидкам на каждом дц будет собираться ~500 метрик.

Есть ещё один дц, там тоже несколько виртуалок с сервисами управления всем этим хозяйством.

Хочется собирать все метрики в центр и там принимать решение об алертинге и т.п.

Вижу несколько вариантов:
1. Prometheus в центре, и на каждом ДЦ с web-сервисами тоже prometheus. Дальше настроить федерацию и собирать.
Из плюсов:
- всё уже придумано
Из минусов:
- каналы связи не всегда дают возможность достучаться до ДЦ
- prometheus не поддерживает аутентификацию, нужно будет придумывать что-то перед ним

2. Prometheus в центре, на веб-сервисных ДЦ метрики пушить в Azure EventHub (кто не знает, это типа кафки), в центре принимать метрики из EventHub и пушить в Prometheus.
Из минусов:
- городить костыль.
Из плюсов:
- доступ к своим региональным azure есть из всех регионов и он получше, чем наши каналы связи.
- судя по всему похожий механизм всё равно нужен будет для передачи трассировок и логов в центр, так что плюсом будет являться единый механизм для передачи данных.

Может есть идеи получше?

источник

09:27пожаловаться #9

T

Tamerlan in Церковь метрик

Alexey Gusarov

Всем привет.

Не хватает понимания как собирать метрики с удалённых площадок.

Есть несколько датацентров раскиданых по миру. В каждом дц есть несколько виртуалок с web-сервисами и просто сервисами (это винда), в перспективе будет кубер.
По прикидкам на каждом дц будет собираться ~500 метрик.

Есть ещё один дц, там тоже несколько виртуалок с сервисами управления всем этим хозяйством.

Хочется собирать все метрики в центр и там принимать решение об алертинге и т.п.

Вижу несколько вариантов:
1. Prometheus в центре, и на каждом ДЦ с web-сервисами тоже prometheus. Дальше настроить федерацию и собирать.
Из плюсов:
- всё уже придумано
Из минусов:
- каналы связи не всегда дают возможность достучаться до ДЦ
- prometheus не поддерживает аутентификацию, нужно будет придумывать что-то перед ним

2. Prometheus в центре, на веб-сервисных ДЦ метрики пушить в Azure EventHub (кто не знает, это типа кафки), в центре принимать метрики из EventHub и пушить в Prometheus.
Из минусов:
- городить костыль.
Из плюсов:
- доступ к своим региональным azure есть из всех регионов и он получше, чем наши каналы связи.
- судя по всему похожий механизм всё равно нужен будет для передачи трассировок и логов в центр, так что плюсом будет являться единый механизм для передачи данных.

Может есть идеи получше?

я бы сначала попробовал федерацию - оно проще, если не будет устраивать, то можно уже костыли доставать

если позволяет среда, то аутентификацию можно заменить ограничением на подключение к порту с определённых адресов

источник

10:24пожаловаться #10

T

Tamerlan in Церковь метрик

да и сетевые задержки/иные проблемы - региональный пром всё равно будет собирать у себя, а центр должен подцепить в любом случае, пусть даже и с небольшими задержками

источник

10:25пожаловаться #11

GG

George Gaál in Церковь метрик

Alexey Gusarov

Всем привет.

Не хватает понимания как собирать метрики с удалённых площадок.

Есть несколько датацентров раскиданых по миру. В каждом дц есть несколько виртуалок с web-сервисами и просто сервисами (это винда), в перспективе будет кубер.
По прикидкам на каждом дц будет собираться ~500 метрик.

Есть ещё один дц, там тоже несколько виртуалок с сервисами управления всем этим хозяйством.

Хочется собирать все метрики в центр и там принимать решение об алертинге и т.п.

Вижу несколько вариантов:
1. Prometheus в центре, и на каждом ДЦ с web-сервисами тоже prometheus. Дальше настроить федерацию и собирать.
Из плюсов:
- всё уже придумано
Из минусов:
- каналы связи не всегда дают возможность достучаться до ДЦ
- prometheus не поддерживает аутентификацию, нужно будет придумывать что-то перед ним

2. Prometheus в центре, на веб-сервисных ДЦ метрики пушить в Azure EventHub (кто не знает, это типа кафки), в центре принимать метрики из EventHub и пушить в Prometheus.
Из минусов:
- городить костыль.
Из плюсов:
- доступ к своим региональным azure есть из всех регионов и он получше, чем наши каналы связи.
- судя по всему похожий механизм всё равно нужен будет для передачи трассировок и логов в центр, так что плюсом будет являться единый механизм для передачи данных.

Может есть идеи получше?

а почему не алертить с региональных дц?

источник

10:32пожаловаться #12

GG

George Gaál in Церковь метрик

поясняю. Предположим, у вас нарушилась связность между ДЦ, но при этом оба ДЦ работают. В региональном падает сервис - алерта в Вашей топологии не будет

источник

10:32пожаловаться #13

GG

George Gaál in Церковь метрик

т.е. центральный пром нужен только лишь для двух вещей
1. централизованное хранение метрик, а дальше передавать их в какое-то хранилище для статистики
2. алертинг, в случае, если накрылись каналы до региональных ДЦ или они попросту отключились

источник

10:33пожаловаться #14

AG

Alexey Gusarov in Церковь метрик

George Gaál

а почему не алертить с региональных дц?

они вне всей нашей инфраструктуры, сходу кажется сложно организовать алертинг с тех площадок. Но вопрос хороший, может и действительно можно так организовать. Я подумаю над этим.

источник

10:35пожаловаться #15

GG

George Gaál in Церковь метрик

сорри. У меня в башке щелкнуло. Гусаров. Ажур. Мы знакомы? Нет. вряд ли )

источник

10:36пожаловаться #16

GG

George Gaál in Церковь метрик

совпадение

источник

10:36пожаловаться #17

AG

Alexey Gusarov in Церковь метрик

George Gaál

поясняю. Предположим, у вас нарушилась связность между ДЦ, но при этом оба ДЦ работают. В региональном падает сервис - алерта в Вашей топологии не будет

Обычно если связность прям совсем нарушилась, то мы регион убираем из раздачи.
Т.е. остро такая проблема не стоит.

источник

10:38пожаловаться #18

AG

Alexey Gusarov in Церковь метрик

George Gaál

т.е. центральный пром нужен только лишь для двух вещей
1. централизованное хранение метрик, а дальше передавать их в какое-то хранилище для статистики
2. алертинг, в случае, если накрылись каналы до региональных ДЦ или они попросту отключились

Ещё и хочется всю систему видеть в одном месте.

источник

10:39пожаловаться #19

AG

Alexey Gusarov in Церковь метрик

George Gaál

сорри. У меня в башке щелкнуло. Гусаров. Ажур. Мы знакомы? Нет. вряд ли )

Это наверное ты про Владимира Гусарова :) Он рассказывает много про TFS и т.п.

источник

10:40пожаловаться #20