Size: a a a

2019 October 03

РА

Рамиль Ахмадеев... in Moscow Spark
можно рамдиск для промежуточных результатов запилить
источник

РА

Рамиль Ахмадеев... in Moscow Spark
но Павел как раз это и имел в виду
источник

EN

Eldar Nezametdinov in Moscow Spark
ок спасибо..
источник
2019 October 07

M

Mikhail in Moscow Spark
Всем, привет! Поделитесь опытом, кто как мониторит consumer lag в стриминговых спарк джобах? Как я понимаю, стандартным способом Spark не коммитит оффсеты в Кафку, а сохраняет в checkpointLocation. Но как тогда правильно мониторить лаг консьюмера?
источник

PK

Pavel Klemenkov in Moscow Spark
Mikhail
Всем, привет! Поделитесь опытом, кто как мониторит consumer lag в стриминговых спарк джобах? Как я понимаю, стандартным способом Spark не коммитит оффсеты в Кафку, а сохраняет в checkpointLocation. Но как тогда правильно мониторить лаг консьюмера?
источник

t

tenKe in Moscow Spark
Лаг оффсетов можно считать через sq.lastProgress
источник

t

tenKe in Moscow Spark
Лаг времени - по полю времени из события
источник

M

Mikhail in Moscow Spark
Имеется ввиду endOffset из lastProgress? И что с ним обычно делают? Пишут в отдельный топик Кафки через onQueryProgress и кастомный листенер?
источник

t

tenKe in Moscow Spark
Можно так, можно еще из данных эту инфу доставать
источник

K

KrivdaTheTriewe in Moscow Spark
мы логируем это дело в листенерах
источник

t

tenKe in Moscow Spark
Ведь в дф из кафки есть оффсеты и т п
источник

GP

Grigory Pomadchin in Moscow Spark
Mikhail
Имеется ввиду endOffset из lastProgress? И что с ним обычно делают? Пишут в отдельный топик Кафки через onQueryProgress и кастомный листенер?
можно вручную коммитить и на коммите класть в отдельную табличку лог дополнительный
источник

GP

Grigory Pomadchin in Moscow Spark
в любом случае почти всегда хочется вручную комитить, ведь разумно проверить целостность стрима по завершщению операций, елси они не особо тривиальные
источник

M

Mikhail in Moscow Spark
Всем спасибо! Будем пробовать листенер.
источник
2019 October 09

AC

Anton Chern in Moscow Spark
Всем привет! Подскажите пожалуйста куда копать: есть скрипт на pyspark и следующее распределение данных в процессе работы
источник

AC

Anton Chern in Moscow Spark
как бороться с shuffle в 200 гигов?
источник

AC

Anton Chern in Moscow Spark
источник

AC

Anton Chern in Moscow Spark
на последнем этапе
источник

KS

Kostya Shchetkin in Moscow Spark
напиши, что делаешь, но скорее всего у тебя каких-то ключей сильно больше, чем других
источник

KS

Kostya Shchetkin in Moscow Spark
null-ы тоже считаются
источник