Size: a a a

2020 October 30

M

Mi in Moscow Spark
да, я к тому, можно ли этот паркет как-то по-другому сложить без сильного оверхеда
источник

M

Mi in Moscow Spark
перед загрузкой
источник

JF

Jane Frankenstein in Moscow Spark
Mi
да, я к тому, можно ли этот паркет как-то по-другому сложить без сильного оверхеда
я не влияю на данные, которые мы читаем
источник

M

Mi in Moscow Spark
можно попробовать где-нибудь перед шаффлингом нужны repartition сделать чтобы быстрее было
источник

JF

Jane Frankenstein in Moscow Spark
Andrey Smirnov
вот смотрите, грузим паркет, сколько этого паркета, сколько партиций, есть ли там бакеты, можно их как-то использовать
а в делаем манипуляции вообще кладезь всего что можно сделать
сколько этого паркета => террабайты, все по-разному патиционированы, записаны из разных топиков
источник

JF

Jane Frankenstein in Moscow Spark
Mi
можно попробовать где-нибудь перед шаффлингом нужны repartition сделать чтобы быстрее было
перед каунтом?
источник

JF

Jane Frankenstein in Moscow Spark
разбить df и посчитать частями, потом просуммировать?
источник

M

Mi in Moscow Spark
кстати, это у вас 200 миллисекунд таймаут получается?
источник

ИГ

Игорь Гомановский... in Moscow Spark
А манипуляции, о которых вы говорите, подразумевают шафл сами? Сейчас попробовал и countApprox мне данные не перемешивал - всё считалось в одном Stage
источник

JF

Jane Frankenstein in Moscow Spark
Игорь Гомановский
А манипуляции, о которых вы говорите, подразумевают шафл сами? Сейчас попробовал и countApprox мне данные не перемешивал - всё считалось в одном Stage
замена значений и фильтрация
источник

M

Mi in Moscow Spark
можете попробовать поставить таймаут подольше, скажем на 10 минут (или что-нибудь приемлемое, в зависимости от общего размера данных например), и смотреть initialValue
источник

JF

Jane Frankenstein in Moscow Spark
Игорь Гомановский
А манипуляции, о которых вы говорите, подразумевают шафл сами? Сейчас попробовал и countApprox мне данные не перемешивал - всё считалось в одном Stage
в логах падает именно с шафлом
источник

JF

Jane Frankenstein in Moscow Spark
Mi
можете попробовать поставить таймаут подольше, скажем на 10 минут (или что-нибудь приемлемое, в зависимости от общего размера данных например), и смотреть initialValue
10 минут на каждый каунт у меня одна джоба вместо часа будет бежать несколько часов :(
источник

JF

Jane Frankenstein in Moscow Spark
не вариант
источник

M

Mi in Moscow Spark
Jane Frankenstein
10 минут на каждый каунт у меня одна джоба вместо часа будет бежать несколько часов :(
а сколько обычно этот каунт выполняется?
источник

JF

Jane Frankenstein in Moscow Spark
Mi
а сколько обычно этот каунт выполняется?
от 3 до 7 минут
источник

JF

Jane Frankenstein in Moscow Spark
обычно 3-4
источник

M

Mi in Moscow Spark
ну вот поставьте 4
источник

M

Mi in Moscow Spark
или 3)
источник

M

Mi in Moscow Spark
и запрашивайте initialValue
источник