Size: a a a

2020 October 30

JF

Jane Frankenstein in Moscow Spark
да
источник

AS

Andrey Smirnov in Moscow Spark
а когда делаете union колво партиций у датафреймов совпадает?
источник

JF

Jane Frankenstein in Moscow Spark
Andrey Smirnov
а когда делаете union колво партиций у датафреймов совпадает?
не проверяла
источник

AS

Andrey Smirnov in Moscow Spark
в вашем случае я думаю именно там происходит шафл
источник

JF

Jane Frankenstein in Moscow Spark
я убрала сейчас полностью вызов этой функции - ООМ нет
источник

JF

Jane Frankenstein in Moscow Spark
все ранится прекрасно, но очень долго :(
источник

JF

Jane Frankenstein in Moscow Spark
Алексей
можно поставить настройку maxRecordsPerFile, чтобы писать нужное число строк в файл
попробовала поставить
источник

JF

Jane Frankenstein in Moscow Spark
одна такая джоба ехала 37-40 минут, сейчас уже больше 1 часа 20 минут
источник

AS

Andrey Smirnov in Moscow Spark
интересно получается
источник

AS

Andrey Smirnov in Moscow Spark
@janefrankenstein может раз у вас паркет, то не приводить к rdd (я правда тестировал на orc)  а считать count?
источник

JF

Jane Frankenstein in Moscow Spark
тоже как вариант :)
источник

JF

Jane Frankenstein in Moscow Spark
узкое место я нашла, главное, разобрать детали
источник

AS

Andrey Smirnov in Moscow Spark
Jane Frankenstein
узкое место я нашла, главное, разобрать детали
вырезай это countApprox
источник

JF

Jane Frankenstein in Moscow Spark
да
источник

AS

Andrey Smirnov in Moscow Spark
хочется плакать когда видишь подобное поведение
источник

M

Mi in Moscow Spark
Andrey Smirnov
интересно получается
finalValue вроде бы ждёт пока не будет точный результат по факту равный count
источник

AS

Andrey Smirnov in Moscow Spark
Mi
finalValue вроде бы ждёт пока не будет точный результат по факту равный count
да, он блокирующий, но по смотри как выглядит поведение с initialValue
источник

M

Mi in Moscow Spark
Andrey Smirnov
хочется плакать когда видишь подобное поведение
Так у вас confidence стоит 0, это вообще никаких гарантий не даёт
источник

JF

Jane Frankenstein in Moscow Spark
я оставляла 0.9 confidence и тоже было 0
источник

M

Mi in Moscow Spark
Jane Frankenstein
я оставляла 0.9 confidence и тоже было 0
У вас timeout 200 миллисекунд
источник