Size: a a a

2021 February 02

TZ

Timur Zalimov in Moscow Spark
Andrey Smirnov
После наполнения
Спасибо - попробую так
источник

K

KrivdaTheTriewe in Moscow Spark
https://vc.ru/finance/203574-servis-dlya-analiza-dannyh-databricks-privlek-1-mlrd-ot-amazon-alphabet-salesforce-i-drugih
значит ли это, что датабрикс в гугле появится?
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Eugene Chipizubov
Слушай, что то дешево сходу сгенерить искусственный датасет не получилось
А если тот же датасет, но с порезанной песоналкой?
источник

EC

Eugene Chipizubov in Moscow Spark
Паша Финкельштейн
А если тот же датасет, но с порезанной песоналкой?
источник

EC

Eugene Chipizubov in Moscow Spark
Немножко оптимизировал
источник

EC

Eugene Chipizubov in Moscow Spark
источник

С

Сюткин in Moscow Spark
Сча качну, гляну
источник

EC

Eugene Chipizubov in Moscow Spark
Теперь описание:
В ноуте создаем два паркета, где воспроизводится проблема спарка, когда размер страницы в паркете больше 2GB.

Восстановить такой паркетник можно только из LocalFS+pyarrow(иногда перегрузка данных невозможна и терять данные не хочется)

На проблему наткнулся при использовании OrderBy -  сквозная сортировка DF на выходе может на перекошенных данных создавать паркеты, где row_group_size больше 2GB. Нецелесообразно использовать orderBy на "широких" таблицах.
источник

EC

Eugene Chipizubov in Moscow Spark
ISSUE для спарка не помню, где то был в закладках
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Так, а тчобы оно сгенерировало битый файл что надо сделать?
источник

EC

Eugene Chipizubov in Moscow Spark
Паша Финкельштейн
Так, а тчобы оно сгенерировало битый файл что надо сделать?
Ноутбук выше
источник

EC

Eugene Chipizubov in Moscow Spark
50CPU ~40GB RAM надо
источник

EC

Eugene Chipizubov in Moscow Spark
осторожней
источник

EC

Eugene Chipizubov in Moscow Spark
попробую еще через minio его пропустить
источник

С

Сюткин in Moscow Spark
Так
источник

С

Сюткин in Moscow Spark
Eugene Chipizubov
Ноутбук выше
Он ломает колонку content

Если читать без неё то паркет читается
источник

С

Сюткин in Moscow Spark
Теперь понять почему ломает из-за row_group_size
источник

EC

Eugene Chipizubov in Moscow Spark
научите дебажить спарк, ведро пива дам
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Eugene Chipizubov
научите дебажить спарк, ведро пива дам
У меня есть экспериментальный дебаггер для спарк джавы
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Но надо иметь локальное подключение к спарку
источник