Size: a a a

2021 February 09

EC

Eugene Chipizubov in Moscow Spark
в сборках с хадупом, тупо не работает
источник

EC

Eugene Chipizubov in Moscow Spark
начинаются претензии к guava, guice... и т.д.
источник

EC

Eugene Chipizubov in Moscow Spark
hive напрямую работает
источник

EC

Eugene Chipizubov in Moscow Spark
а в спарке нет
источник

A

Alex in Moscow Spark
правильно
источник

A

Alex in Moscow Spark
потому что спарк создаёт подключение весело =)

в изолированном класлоадере
источник

EC

Eugene Chipizubov in Moscow Spark
а как ему shims подменить?
источник

EC

Eugene Chipizubov in Moscow Spark
я уж hive-shims-common-3.1.2.jar пробовал, ему все равно
источник

EC

Eugene Chipizubov in Moscow Spark
сейчас попробую  сборку сделать с hdp3.3.0
источник

A

Alex in Moscow Spark
"spark.sql.hive.metastore.version" = "3.1.1"
"spark.sql.hive.metastore.jars" = "/usr/hdp/current/hive-client/lib/*:./*"
источник

A

Alex in Moscow Spark
не нужно подменять, параметрами спарка говоришь что версия не buildin, а бери с диска
источник

A

Alex in Moscow Spark
если хдп то либы там будут
источник

A

Alex in Moscow Spark
источник

ИК

Иван Калининский... in Moscow Spark
Mi
Кто-нибудь может подсказать почему Спарк при записи двух больших партиций с
repartition(my_col, rand * 8)+ writer.partitionBy(my_col) все равно оставляет большие жирные партиции и не учитывает никак rand?
попробуй указать целевое количество файлов (и побольше, побольше))
источник

EC

Eugene Chipizubov in Moscow Spark
Alex
если хдп то либы там будут
кажется понял ошибку, в этом кейсе я указывал HIVE_HOME/lib
источник

EC

Eugene Chipizubov in Moscow Spark
попробуем сейчас
источник

A

Alex in Moscow Spark
они не резолвят переменные окружения, нужен полный путь
источник

M

Mi in Moscow Spark
Иван Калининский
попробуй указать целевое количество файлов (и побольше, побольше))
А разве есть такой параметр? Вообще как я понял это связано с partitionBy, выделяется ровно по одному екзекутору на запись
источник

ИК

Иван Калининский... in Moscow Spark
Mi
А разве есть такой параметр? Вообще как я понял это связано с partitionBy, выделяется ровно по одному екзекутору на запись
.repartition(n, expr1, expr2).write.partitionBy()…
вот это n поставь побольше, может быть получится
источник

M

Mi in Moscow Spark
Иван Калининский
.repartition(n, expr1, expr2).write.partitionBy()…
вот это n поставь побольше, может быть получится
Пробовал, не работает
источник