Телеграмм чат группы moscowspark страница 526

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Moscow Spark

938 membersпожаловаться на группу

2021 January 25

t

tenKe in Moscow Spark

он часто поднимается вверх по плану и делает так, что твой дф считается на числе тредов, равным количеству партиций в coalesce

источник

18:05пожаловаться #1

EC

Eugene Chipizubov in Moscow Spark

вот у меня случай ,когда очень надо сохранить сортировку внутри df (
Конечный размер паркета на выходе на порядок меньше и запросы бегают сильно быстрее

источник

18:13пожаловаться #2

С

Сюткин in Moscow Spark

Eugene Chipizubov

вот у меня случай ,когда очень надо сохранить сортировку внутри df (
Конечный размер паркета на выходе на порядок меньше и запросы бегают сильно быстрее

SortWithinPartitions?

источник

18:16пожаловаться #3

t

tenKe in Moscow Spark

кстати, coalesce с orderBy - ты в курсе что orderBy запускает range partitioning?

источник

18:25пожаловаться #4

t

tenKe in Moscow Spark

Сюткин

SortWithinPartitions?

++

источник

18:25пожаловаться #5

GP

Grigory Pomadchin in Moscow Spark

кстати, coalesce с orderBy - ты в курсе что orderBy запускает range partitioning?

Смешная цепочка операций))

источник

18:26пожаловаться #6

EC

Eugene Chipizubov in Moscow Spark

Сюткин

SortWithinPartitions?

Еще хотелось бы кол-во файлов на выходе контролировать ))

источник

18:30пожаловаться #7

С

Сюткин in Moscow Spark

Eugene Chipizubov

Еще хотелось бы кол-во файлов на выходе контролировать ))

.repartition()
.sortwithinpartitions()

источник

18:31пожаловаться #8

С

Сюткин in Moscow Spark

Кажись я собес только что прошёл

источник

18:34пожаловаться #9

С

Сюткин in Moscow Spark

источник

18:34пожаловаться #10

EC

Eugene Chipizubov in Moscow Spark

)

источник

18:34пожаловаться #11

EC

Eugene Chipizubov in Moscow Spark

он часто поднимается вверх по плану и делает так, что твой дф считается на числе тредов, равным количеству партиций в coalesce

я осознал, что мне не нужна сквозная сортировка
кпц, пойду напьсюь

источник

19:39пожаловаться #12

2021 January 26

ПФ

Паша Финкельштейн... in Moscow Spark

Сюткин

Кажись я собес только что прошёл

Принят!

источник

01:12пожаловаться #13

ПФ

Паша Финкельштейн... in Moscow Spark

Eugene Chipizubov

я осознал, что мне не нужна сквозная сортировка
кпц, пойду напьсюь

Кххххх, вот это жёстко было

источник

01:12пожаловаться #14

EC

Eugene Chipizubov in Moscow Spark

Паша Финкельштейн

Кххххх, вот это жёстко было

на самом деле coalesce c сортировкой сжимает лучше всего паркет

источник

01:13пожаловаться #15

EC

Eugene Chipizubov in Moscow Spark

тут еще выяснилось, что если переусердствовать, то можно сломать row_page_size в паркете и он из hdfs больше не прочитается

источник

01:14пожаловаться #16

EC

Eugene Chipizubov in Moscow Spark

Illegal Capacity ошибка

источник

01:14пожаловаться #17

EC

Eugene Chipizubov in Moscow Spark

repartition(x, col(f)).sortWitihinPartitions работает, но на большом объекме также может сломать паркет 😭

источник

01:15пожаловаться #18

EC

Eugene Chipizubov in Moscow Spark

пора прекращать эксперименты с компактором, надоел уже

источник

01:15пожаловаться #19

EC

Eugene Chipizubov in Moscow Spark

Eugene Chipizubov

Illegal Capacity ошибка

починить можно с помощью pyArrow но только из LocalFS

источник

01:16пожаловаться #20