Size: a a a

2021 January 25

t

tenKe in Moscow Spark
он часто поднимается вверх по плану и   делает так, что твой дф считается на числе тредов, равным количеству партиций в coalesce
источник

EC

Eugene Chipizubov in Moscow Spark
вот у меня случай ,когда очень надо сохранить сортировку внутри df (
Конечный размер паркета на выходе на порядок меньше и запросы бегают сильно быстрее
источник

С

Сюткин in Moscow Spark
Eugene Chipizubov
вот у меня случай ,когда очень надо сохранить сортировку внутри df (
Конечный размер паркета на выходе на порядок меньше и запросы бегают сильно быстрее
SortWithinPartitions?
источник

t

tenKe in Moscow Spark
кстати, coalesce с orderBy - ты в курсе что orderBy запускает range partitioning?
источник

t

tenKe in Moscow Spark
Сюткин
SortWithinPartitions?
++
источник

GP

Grigory Pomadchin in Moscow Spark
tenKe
кстати, coalesce с orderBy - ты в курсе что orderBy запускает range partitioning?
Смешная цепочка операций))
источник

EC

Eugene Chipizubov in Moscow Spark
Сюткин
SortWithinPartitions?
Еще хотелось бы кол-во файлов на выходе контролировать ))
источник

С

Сюткин in Moscow Spark
Eugene Chipizubov
Еще хотелось бы кол-во файлов на выходе контролировать ))
.repartition()
.sortwithinpartitions()
источник

С

Сюткин in Moscow Spark
Кажись я собес только что прошёл
источник

С

Сюткин in Moscow Spark
источник

EC

Eugene Chipizubov in Moscow Spark
)
источник

EC

Eugene Chipizubov in Moscow Spark
tenKe
он часто поднимается вверх по плану и   делает так, что твой дф считается на числе тредов, равным количеству партиций в coalesce
я осознал, что мне не нужна сквозная сортировка
кпц, пойду напьсюь
источник
2021 January 26

ПФ

Паша Финкельштейн... in Moscow Spark
Сюткин
Кажись я собес только что прошёл
Принят!
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Eugene Chipizubov
я осознал, что мне не нужна сквозная сортировка
кпц, пойду напьсюь
Кххххх, вот это жёстко было
источник

EC

Eugene Chipizubov in Moscow Spark
Паша Финкельштейн
Кххххх, вот это жёстко было
на самом деле coalesce c сортировкой сжимает лучше всего паркет
источник

EC

Eugene Chipizubov in Moscow Spark
тут еще выяснилось, что если переусердствовать, то можно сломать row_page_size в паркете и он из hdfs больше не прочитается
источник

EC

Eugene Chipizubov in Moscow Spark
Illegal Capacity ошибка
источник

EC

Eugene Chipizubov in Moscow Spark
repartition(x, col(f)).sortWitihinPartitions работает, но на большом объекме также может сломать паркет 😭
источник

EC

Eugene Chipizubov in Moscow Spark
пора прекращать эксперименты с компактором, надоел уже
источник

EC

Eugene Chipizubov in Moscow Spark
Eugene Chipizubov
Illegal Capacity ошибка
починить можно с помощью pyArrow но только из LocalFS
источник