Телеграмм чат группы moscowspark страница 542

Кто-нибудь может подсказать почему Спарк при записи двух больших партиций с
repartition(my_col, rand * 8)+ writer.partitionBy(my_col) все равно оставляет большие жирные партиции и не учитывает никак rand?

spark.locality.wait 0

источник

20:22пожаловаться #5

A

Alex in Moscow Spark

@Ponte_SantAngelo

стоп, какой из вариантов:
1) hdp со стандартными их пакетами от хортона/клоудеры
2) ваниль из апача и сами раскатывали
3) hdp, но сам хадуп и hive уже обновили до апачевских версий

источник

20:24пожаловаться #6

EC

Eugene Chipizubov in Moscow Spark

Alex

@Ponte_SantAngelo

стоп, какой из вариантов:
1) hdp со стандартными их пакетами от хортона/клоудеры
2) ваниль из апача и сами раскатывали
3) hdp, но сам хадуп и hive уже обновили до апачевских версий

2

источник

20:25пожаловаться #7

M

Mi in Moscow Spark

tenKe

spark.locality.wait 0

А при чем здесь локалити?

источник

20:26пожаловаться #8

t

tenKe in Moscow Spark

Mi

А при чем здесь локалити?

при репартишене спарк пытается как можно меньше телоджвижений делать и это негативно аффектит распредение по воркерам

источник

20:27пожаловаться #9

ИК

Иван Калининский... in Moscow Spark

Mi

А при чем здесь локалити?

спарк хитрый, знает, на каких хостах лежат исходные файлы, и на них же распределяет таски

источник

20:27пожаловаться #10

t

tenKe in Moscow Spark

в итоге и получается, что ты пытаешься размазать датасет, а он не мажется нифига, оставаясь на тех воркерах, на которых появился

источник

20:27пожаловаться #11

M

Mi in Moscow Spark

Хммм, интересно, спасибо

источник

20:27пожаловаться #12

ИК

Иван Калининский... in Moscow Spark

хотя, это должно регулироваться ещё как-то, не зря же внешние шафл-сервисы подключают

источник

20:28пожаловаться #13

A

Alex in Moscow Spark

Eugene Chipizubov

2

прикол, spark-hive jar только в версиях с хадупом поставляются

источник

20:29пожаловаться #14

A

Alex in Moscow Spark

скачайте и заберите его оттуда

источник

20:29пожаловаться #15

A

Alex in Moscow Spark

почему они не поставляют его в дефолт версии чтобы только хадуп/хайв либы нужно было подложить я не могу сказать

источник

20:29пожаловаться #16

M

Mi in Moscow Spark

tenKe

при репартишене спарк пытается как можно меньше телоджвижений делать и это негативно аффектит распредение по воркерам

Может ещё подскажете, можно ли данную опцию включить и выключить на рантайме, а не для всей сессии?

источник

20:32пожаловаться #17

A

Alex in Moscow Spark

@Ponte_SantAngelo

то есть в той версии что вы скачали bin-without-hadoop

нету hive & hadoop - что ожидаемо, так как пользователь должен их предоставить
но так же нету spark-hive - классов обёрток для интеграции спарка и хайва, вот это уже странно как-то

источник

20:32пожаловаться #18

A

Alex in Moscow Spark

поэтому и упала ошибка на HiveSessionStateBuilder

источник

20:33пожаловаться #19

EC

Eugene Chipizubov in Moscow Spark

Alex

@Ponte_SantAngelo

то есть в той версии что вы скачали bin-without-hadoop

нету hive & hadoop - что ожидаемо, так как пользователь должен их предоставить
но так же нету spark-hive - классов обёрток для интеграции спарка и хайва, вот это уже странно как-то

если добавить spark-hive 2.11 _ 2.47 Это полседняя версия для Spark2, то внезапно упадет с ошибкой Unrecognized Hadoop major version number: 3.3.0

источник

20:35пожаловаться #20