Телеграмм чат группы moscowspark страница 567

Народ. Подскажите. Как мне прочитать и сджойнить огромный набор непартийированных данных. Шаффлинг зашкаливает. Пока приходит в голову только считать и пересохранить все это партицированно . Только боюсь что прочитать и сохранить не получится изза обьемов

Как и с чем джойнить?

источник

16:36пожаловаться #8

Gev in Moscow Spark

Ну есть другая маленькая. Ее надо джойнить с этим кошмаром

источник

16:37пожаловаться #9

ПФ

Паша Финкельштейн... in Moscow Spark

броадкаст?

источник

16:37пожаловаться #10

ИК

Иван Калининский... in Moscow Spark

надо на бродкаст выводить

источник

16:37пожаловаться #11

Gev in Moscow Spark

Иван Калининский

надо на бродкаст выводить

А он разве по умолчанию не правильный?

источник

16:38пожаловаться #12

ИК

Иван Калининский... in Moscow Spark

можно попробовать намекнуть bigDF.join(org.apache.spark.sql.functions.broadcast(smallDF), condition, type)
Или, если строка SQL, то хинтом - /*+ BROADCAST(small_table) */

источник

16:45пожаловаться #13

ИК

Иван Калининский... in Moscow Spark

и смотреть .explain(true), чтобы там был BroadcastHashJoin или BroadcastNestedLoopJoin (вроде так)

источник

16:46пожаловаться #14

ВК

Вячеслав Колосков... in Moscow Spark

tenKe

а в конфиге spark-defaults.conf или через spark-submit --driver-memory 5g

спасибо, отработало.
а какие еще настройки надо указывать через спарк сабмит, а не через код?

источник

16:46пожаловаться #15

ИК

Иван Калининский... in Moscow Spark

а файлы пачками читать только через .load(paths: _*), можно наделать кучу слайсов по любым параметрам. И самое интересное - при вызове .load(…) спарк строит InMemoryFileIndex распределенно на экзекуторах , то есть, намного быстрее, чем на драйвере обращаться к неймноде

источник

16:49пожаловаться #16

ИК

Иван Калининский... in Moscow Spark

в цикле по каждому файлу ходить тоже нельзя - оверхед слишком высокий

источник

16:50пожаловаться #17

tenKe in Moscow Spark

Вячеслав Колосков

спасибо, отработало.
а какие еще настройки надо указывать через спарк сабмит, а не через код?

В основном те, которые влияют на конфиг драйвера - мастер, режим запуска, память, коры, java opts, переменные окружения, classpath, керберос и т п. Просто помни, что вот этот твой SparkSession.builder() работает внутри драйвера - то есть драйвер УЖЕ запущен и работает где-то (ярн, локал и т п)

источник

16:50пожаловаться #18

tenKe in Moscow Spark

Большинство параметров, касающихся воркеров, можно настроить в момент SparkSession.builder()

источник

16:51пожаловаться #19

Mi in Moscow Spark

При записи одного файла есть вообще какая-то разница между coalesce и repartition?

источник

17:21пожаловаться #20