Size: a a a

2021 June 14

MM

Maxim Miholap in Moscow Spark
А может на это как-то повлиять например пересечение зависимостей?
источник

A

Alex in Moscow Spark
Первое что сделал бы, это проверил что в jar классы действительно есть и что эти jar представлены в класпасе
источник

MM

Maxim Miholap in Moscow Spark
Если у меня какая-то либа версии не такой как у Спаркс?
источник

MM

Maxim Miholap in Moscow Spark
Первое да, второе - предлагаешь просто в коде джобы проверит класспасс или есть ещё какой способ?
источник

A

Alex in Moscow Spark
В драйвере на старте есть вся инфа что за класспас сформирован и откуда что брать
источник

N

Nikita Blagodarnyy in Moscow Spark
А как имя класса указано? Короткое или целиком с пакетом?
источник

MM

Maxim Miholap in Moscow Spark
с пакетом
источник

GP

Grigory Pomadchin in Moscow Spark
а что за зависимость
источник

N

Nickolay in Moscow Spark
Spark.broadcast.blockSize сколько стоит?
Если там таких объектов много и они развесестые, то нагрузка на сеть большая будет(torrent protocol)
Стоит ли ?
источник

ИК

Иван Калининский... in Moscow Spark
спасибо за наводку на параметр, попробую посмотреть сегодня попозже или завтра. Специально его никто не менял, значит 4мб, по умолчанию. Его лучше уменьшить, как я понимаю?

Нагрузка на сеть приемлемая, она всегда существует, но раньше была разделена по отдельным джобам, и я решил, что надо снизить оверхед на создание этих отдельных джобов, склеить в один RDD (разумеется, напрямую через планы, чтобы Union не тормозил), но вот сразу встретил проблему
источник

N

Nickolay in Moscow Spark
Там смотрите, в логах экзекутора много сообщений от торрент протокола о инвалидации, поэтому я вам про сеть и сказал(warn log threshold). Обратите внимание еще на одно проперти autobroadcadtJoinThreshold или как то так. Кажется эта настройка как раз мелкие датафреймы и превращает в бродкасты, что вы и пытаетесь сделать...
источник

N

Nickolay in Moscow Spark
Только спарк это делает из коробочки
источник

ИК

Иван Калининский... in Moscow Spark
spark.sql.autoBroadcastJoinThreshold 10Мб. Попробую его увеличить, посмотрю, что будет. Заодно проверю, не скидывается ли он в -1, в одной части приложения я его специально отключаю, и должен восстановить прежнее значение. Спасибо!
источник
2021 June 15

AS

Andrey Smirnov in Moscow Spark
А через планы это как?
источник

ИК

Иван Калининский... in Moscow Spark
немного упрощая, датафрейм состоит из плана Catalyst и RDD[InternalRow], который читается и трансформируется согласно плана. И вот, создаю сразу план запроса и передаю его в написанные команды, которые делают ещё немного полезной работы при записи данных - собирают там информацию о данных в файлах, что-то вроде гистограмм. Обнаружен полезный побочный эффект - можно передать несколько тысяч (и даже десятков тысяч, но запрос будет очень длинный)) подготовленных запросов в org.apache.spark.sql.catalyst.plans.logical.Union и всё выполнится за долю секунды, а не за несколько минут (в старых версиях до нескольких часов).
источник

AS

Andrey Smirnov in Moscow Spark
а есть где-то примеры в открытом доступе, откуда черпал вдохновение?
источник

ИК

Иван Калининский... in Moscow Spark
источник

AS

Andrey Smirnov in Moscow Spark
спасибо!
источник

МК

Михаил Королев... in Moscow Spark
спасибо, кстати, прикольно полезный ресурс, забукмаркил...
источник

DT

Danz The Deadly in Moscow Spark
Привет. Кто-то пользуется датабриксом?

От чего возникают ошибки типа Worker lost и connection closed ?
источник