Size: a a a

2021 February 09

A

Alex in Moscow Spark
ох, правильно ли я понимаю что у вас hive из hdp и вы пытаетесь затянуть туда апач ванильный спарк?
источник

A

Alex in Moscow Spark
если да, то он не полетит …
источник

EC

Eugene Chipizubov in Moscow Spark
Alex
если да, то он не полетит …
все ваниль 100%
источник

EC

Eugene Chipizubov in Moscow Spark
жопа?
источник

t

tenKe in Moscow Spark
Mi
Кто-нибудь может подсказать почему Спарк при записи двух больших партиций с
repartition(my_col, rand * 8)+ writer.partitionBy(my_col) все равно оставляет большие жирные партиции и не учитывает никак rand?
spark.locality.wait 0
источник

A

Alex in Moscow Spark
@Ponte_SantAngelo

стоп, какой из вариантов:
1) hdp со стандартными их пакетами от хортона/клоудеры
2) ваниль из апача и сами раскатывали
3) hdp, но сам хадуп и hive уже обновили до апачевских версий
источник

EC

Eugene Chipizubov in Moscow Spark
Alex
@Ponte_SantAngelo

стоп, какой из вариантов:
1) hdp со стандартными их пакетами от хортона/клоудеры
2) ваниль из апача и сами раскатывали
3) hdp, но сам хадуп и hive уже обновили до апачевских версий
2
источник

M

Mi in Moscow Spark
tenKe
spark.locality.wait 0
А при чем здесь локалити?
источник

t

tenKe in Moscow Spark
Mi
А при чем здесь локалити?
при репартишене спарк пытается как можно меньше телоджвижений делать и это негативно аффектит распредение по воркерам
источник

ИК

Иван Калининский... in Moscow Spark
Mi
А при чем здесь локалити?
спарк хитрый, знает, на каких хостах лежат исходные файлы, и на них же распределяет таски
источник

t

tenKe in Moscow Spark
в итоге и получается, что ты пытаешься размазать датасет, а он не мажется нифига, оставаясь на тех воркерах, на которых появился
источник

M

Mi in Moscow Spark
Хммм, интересно, спасибо
источник

ИК

Иван Калининский... in Moscow Spark
хотя, это должно регулироваться ещё как-то, не зря же внешние шафл-сервисы подключают
источник

A

Alex in Moscow Spark
Eugene Chipizubov
2
прикол, spark-hive jar только в версиях с хадупом поставляются
источник

A

Alex in Moscow Spark
скачайте и заберите его оттуда
источник

A

Alex in Moscow Spark
почему они не поставляют его в дефолт версии чтобы только хадуп/хайв либы нужно было подложить я не могу сказать
источник

M

Mi in Moscow Spark
tenKe
при репартишене спарк пытается как можно меньше телоджвижений делать и это негативно аффектит распредение по воркерам
Может ещё подскажете, можно ли данную опцию включить и выключить на рантайме, а не для всей сессии?
источник

A

Alex in Moscow Spark
@Ponte_SantAngelo

то есть в той версии что вы скачали bin-without-hadoop

нету hive & hadoop - что ожидаемо, так как пользователь должен их предоставить
но так же нету spark-hive - классов обёрток для интеграции спарка и хайва, вот это уже странно как-то
источник

A

Alex in Moscow Spark
поэтому и упала ошибка на HiveSessionStateBuilder
источник

EC

Eugene Chipizubov in Moscow Spark
Alex
@Ponte_SantAngelo

то есть в той версии что вы скачали bin-without-hadoop

нету hive & hadoop - что ожидаемо, так как пользователь должен их предоставить
но так же нету spark-hive - классов обёрток для интеграции спарка и хайва, вот это уже странно как-то
если добавить spark-hive 2.11 _  2.47 Это полседняя версия для Spark2, то внезапно упадет с ошибкой Unrecognized Hadoop major version number: 3.3.0
источник