Size: a a a

2021 January 26

EC

Eugene Chipizubov in Moscow Spark
он понимает старые версии спарка тоже
источник

EC

Eugene Chipizubov in Moscow Spark
если не про то, то сорян
источник

A

Alex in Moscow Spark
Datamove
Привет, спарщики!
У меня такая проблема - не могу побороть. Установил старенький дистрибутив HDP 3.1 и заменил в нем папку spark2 на более свежий 2.4.7 после некоторого шаманства с установкой переменных это рабает как надо.
Однако при добавлении опций  динамической аллокации, работать перестает с ошибками типа
Caused by: org.apache.hadoop.yarn.exceptions.InvalidAuxServiceException: The auxService:spark_shuffle does not exist
в yarn-site.xml определены классы и пути для spark_shuffle и spark2_shuffle.
В  yarn.nodemanager.aux-services стоит spark2_shuffle, но добавить spark_shuffle, то теперь огибка на экзекуторах другая - не стартует этот сервис на порту 7337. При этом spark2_shuffle использует 7447, как пишут.
Но я не понимаю, на самом деле - на правлильном пути ли я с этим?
Кому-то удавалось побороть настройки динамической аллокации при таком апгрейде?
В хдп спарке идут 2 спарка

Первый на дефолт портах для шафл сповера
И второй, там прямо патчами в хдп порты перебить на другие

По дефолту нигде эти параметры в конфиг не стоят, поэтому если вы запускаете спарк свой, то нужно явно указать на каких портах шафл сервер
источник

A

Alex in Moscow Spark
Обычный спарк использует переменную spark_shuffle из конфигов
источник

A

Alex in Moscow Spark
Она хардкод константа для всех версий
источник

ВК

Вячеслав Колосков... in Moscow Spark
а кто нибудь эту штуку использует? есть фидбек какой-нибудЬ?
источник

e

er@essbase.ru in Moscow Spark
На курсах ,newprolab познакомился с ней
источник

A

Alex in Moscow Spark
Но хортон для того чтобы поддерживать 2 спарка на одном кластере для второго спарка переименовал её в spak2_shuffle
источник

e

er@essbase.ru in Moscow Spark
Очень круто на scala писать
источник

ВК

Вячеслав Колосков... in Moscow Spark
я пробовал как то almond - не понравился - глючит
источник

АР

Андрей Романов... in Moscow Spark
есть ещё almond
источник

A

Alex in Moscow Spark
Поэтому и получается что шафл стартует с параметрами от одного, а вас апач спарк использует параметры от другого
источник

АР

Андрей Романов... in Moscow Spark
там на любителя, но для её запуска не нужен спарк, поэтому её выбрал вместо toree как-то раз
источник

A

Alex in Moscow Spark
@datamove
https://github.com/hortonworks/spark2-release/commit/5fb8140981d282a423fbef5d19c91a56ac87da52#diff-71e304edb6adff7be2edd8855cd040b965240627aa6ebe5b5e941b2fc41e090d

вот этот комит
решения 2:
1) для джобы указать корректный spark.shuffle.service.port (в данном случае 7447 так как у вас второй спарк)
2) для ярна подложить jar для shuffle service из апачевской поставки
источник

A

Alex in Moscow Spark
хотя есть и третий вариант с правильным проставлением spark.shuffle.service.name и параметром на него, но возможны вопросы
источник

A

Alex in Moscow Spark
мы пошли по 2му пути и везде поставили апачевские зависимости
источник

ПФ

Паша Финкельштейн... in Moscow Spark
KrivdaTheTriewe
а какие сча ноутбуки есть  с поддержкой спарк 3 из коробки
Ну так цеппелин, в чём проблема?
источник

A

Alex in Moscow Spark
KrivdaTheTriewe
а какие сча ноутбуки есть  с поддержкой спарк 3 из коробки
обычный jupyter + sparkmagic + livy из мастера (там добавили третий спарк и scala 2.12)
источник

D

Datamove in Moscow Spark
Alex
@datamove
https://github.com/hortonworks/spark2-release/commit/5fb8140981d282a423fbef5d19c91a56ac87da52#diff-71e304edb6adff7be2edd8855cd040b965240627aa6ebe5b5e941b2fc41e090d

вот этот комит
решения 2:
1) для джобы указать корректный spark.shuffle.service.port (в данном случае 7447 так как у вас второй спарк)
2) для ярна подложить jar для shuffle service из апачевской поставки
Спасибо большое за разъяснения! Я вот что сделал: в yarn.nodemanager.aux-services заменил spark2_shuffle на spark_shuffle, убедился, что classpath для spark_shuffle указывает в верное место, добавил spark.shuffle.service.port=7447 и у меня вроде заработало
источник

D

Datamove in Moscow Spark
совет с портом был решающим, спасибо снова!
источник