Телеграмм чат группы moscowspark страница 471

вот смотрите, грузим паркет, сколько этого паркета, сколько партиций, есть ли там бакеты, можно их как-то использовать
а в делаем манипуляции вообще кладезь всего что можно сделать

сколько этого паркета => террабайты, все по-разному патиционированы, записаны из разных топиков

источник

18:27пожаловаться #5

JF

Jane Frankenstein in Moscow Spark

Mi

можно попробовать где-нибудь перед шаффлингом нужны repartition сделать чтобы быстрее было

перед каунтом?

источник

18:27пожаловаться #6

JF

Jane Frankenstein in Moscow Spark

разбить df и посчитать частями, потом просуммировать?

источник

18:28пожаловаться #7

M

Mi in Moscow Spark

кстати, это у вас 200 миллисекунд таймаут получается?

источник

18:30пожаловаться #8

ИГ

Игорь Гомановский... in Moscow Spark

А манипуляции, о которых вы говорите, подразумевают шафл сами? Сейчас попробовал и countApprox мне данные не перемешивал - всё считалось в одном Stage

источник

18:30пожаловаться #9

JF

Jane Frankenstein in Moscow Spark

Игорь Гомановский

А манипуляции, о которых вы говорите, подразумевают шафл сами? Сейчас попробовал и countApprox мне данные не перемешивал - всё считалось в одном Stage

замена значений и фильтрация

источник

18:32пожаловаться #10

M

Mi in Moscow Spark

можете попробовать поставить таймаут подольше, скажем на 10 минут (или что-нибудь приемлемое, в зависимости от общего размера данных например), и смотреть initialValue

источник

18:32пожаловаться #11

JF

Jane Frankenstein in Moscow Spark

Игорь Гомановский

А манипуляции, о которых вы говорите, подразумевают шафл сами? Сейчас попробовал и countApprox мне данные не перемешивал - всё считалось в одном Stage

в логах падает именно с шафлом

источник

18:32пожаловаться #12

JF

Jane Frankenstein in Moscow Spark

Mi

можете попробовать поставить таймаут подольше, скажем на 10 минут (или что-нибудь приемлемое, в зависимости от общего размера данных например), и смотреть initialValue

10 минут на каждый каунт у меня одна джоба вместо часа будет бежать несколько часов :(

источник

18:33пожаловаться #13

JF

Jane Frankenstein in Moscow Spark

не вариант

источник

18:33пожаловаться #14

M

Mi in Moscow Spark

Jane Frankenstein

10 минут на каждый каунт у меня одна джоба вместо часа будет бежать несколько часов :(