Size: a a a

2021 January 26

EC

Eugene Chipizubov in Moscow Spark
изврат
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Eugene Chipizubov
тут еще выяснилось, что если переусердствовать, то можно сломать row_page_size в паркете и он из hdfs больше не прочитается
о, а получается поломанный паркет или просто не пишется?
источник

EC

Eugene Chipizubov in Moscow Spark
да, успешно пишет
источник

EC

Eugene Chipizubov in Moscow Spark
но потом обратно в df уже не превращается
источник

EC

Eugene Chipizubov in Moscow Spark
Caused by: java.lang.IllegalArgumentException: Illegal Capacity: -21
источник

EC

Eugene Chipizubov in Moscow Spark
некоторые паркеты при этом размером под 50G каждый
источник

EC

Eugene Chipizubov in Moscow Spark
ой, народ спит, пардон
источник

ПФ

Паша Финкельштейн... in Moscow Spark
А можешь мне прислать какой-нибудь маленький, если так можно сделать?
источник

EC

Eugene Chipizubov in Moscow Spark
да, давай завтра попробую искусственно сгенерить один
источник

EC

Eugene Chipizubov in Moscow Spark
внутри медицина, нельзя оригинал
источник

С

Сюткин in Moscow Spark
Eugene Chipizubov
да, давай завтра попробую искусственно сгенерить один
и скинешь пример как сохраняешь?
источник

EC

Eugene Chipizubov in Moscow Spark
да
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Eugene Chipizubov
да, давай завтра попробую искусственно сгенерить один
Спасибо! Я бы его сам посмотрел и в наш тестсет добавил
источник

EC

Eugene Chipizubov in Moscow Spark
тебе спасиб
источник

Д

Дмитрий in Moscow Spark
spark.sql.parquet.writeLegacyFormat попробуй.
источник

K

KrivdaTheTriewe in Moscow Spark
а какие сча ноутбуки есть  с поддержкой спарк 3 из коробки
источник

K

KrivdaTheTriewe in Moscow Spark
он премис)
источник

e

er@essbase.ru in Moscow Spark
источник

D

Datamove in Moscow Spark
Привет, спарщики!
У меня такая проблема - не могу побороть. Установил старенький дистрибутив HDP 3.1 и заменил в нем папку spark2 на более свежий 2.4.7 после некоторого шаманства с установкой переменных это рабает как надо.
Однако при добавлении опций  динамической аллокации, работать перестает с ошибками типа
Caused by: org.apache.hadoop.yarn.exceptions.InvalidAuxServiceException: The auxService:spark_shuffle does not exist
в yarn-site.xml определены классы и пути для spark_shuffle и spark2_shuffle.
В  yarn.nodemanager.aux-services стоит spark2_shuffle, но добавить spark_shuffle, то теперь огибка на экзекуторах другая - не стартует этот сервис на порту 7337. При этом spark2_shuffle использует 7447, как пишут.
Но я не понимаю, на самом деле - на правлильном пути ли я с этим?
Кому-то удавалось побороть настройки динамической аллокации при таком апгрейде?
источник

EC

Eugene Chipizubov in Moscow Spark
я наверняка неправильно помню, но у себя решил просто апгрейдом до spark-3.0.1-yarn-shuffle.jar
источник