Телеграмм чат группы moscowspark страница 560

Size: a a a

Moscow Spark

957 membersпожаловаться на группу

2021 February 13

ЕГ

Евгений Глотов... in Moscow Spark

Чем меньше файлов, тем быстрее запись в хдфс, до некоторых пределов, когда уже реально низкая параллельность записи

источник

16:15пожаловаться #1

2021 February 15

Alexander Dorofeev in Moscow Spark

Всем привет!
Подскажите, плиз, какой JAR нужно использовать, чтобы коннектиться к GreenPlum через SPARK? Попробовал несколько jar для postgresql 9.4, коннект проходит, но читает только структуру таблицы, данные в spark df не попадают

источник

10:11пожаловаться #2

Denis Gabaydulin in Moscow Spark

Кто-нибудь работал со spark-redis? Читаем из csv и кладем в redis. Все просто. Никаких group by/reduce, только map. Размер 300 млн строк. Но джоба пытается сначала все прочитать в память и предсказуемо падает, потому что размер партиции огромен. Если делать много мелких партиций, это нагибает redis и он падает. Что можно подкрутить, чтобы оно работало кусками. Прочитал кусок - сохранил в redis.

источник

11:37пожаловаться #3

Denis Gabaydulin in Moscow Spark

Разумеется, кроме того чтобы в ручную побить этот файл и заливать его частями.

источник

11:51пожаловаться #4

Алексей in Moscow Spark

ограничить ресурсы спарка

источник

11:52пожаловаться #5

ИК

Иван Калининский... in Moscow Spark

будет падать быстрее? ))

источник

11:53пожаловаться #6

ИК

Иван Калининский... in Moscow Spark

Никогда не пробовал, но может стоит прочитать csv стримом? Может при этом не будет поднятия всех данных в память?

источник

11:55пожаловаться #7

Denis Gabaydulin in Moscow Spark

Не понятно также, почему оно не пытается спилить на диск, а растет, пока его yarn не прибьет по physical memory limit.

источник

11:55пожаловаться #8

Denis Gabaydulin in Moscow Spark

Иван Калининский

А для file source там есть лимит на пачку, как в кафке?

источник

11:56пожаловаться #9

ИК

Иван Калининский... in Moscow Spark

Denis Gabaydulin

А для file source там есть лимит на пачку, как в кафке?

Не уверен, надо, чтобы кто-то из бывалых подключился ))

источник

11:57пожаловаться #10

Алексей in Moscow Spark

имел в виду: сделать много мелких партиций и ограничить ярном нужное число процессов, что бы редис не падал

источник

12:03пожаловаться #11

Denis Gabaydulin in Moscow Spark

Алексей

имел в виду: сделать много мелких партиций и ограничить ярном нужное число процессов, что бы редис не падал

Не совсем понял. А как это сделать?

источник

12:05пожаловаться #12

Алексей in Moscow Spark

Denis Gabaydulin

Не совсем понял. А как это сделать?

вы пишете, что уже как то побили на части входные данные:
>Если делать много мелких партиций, это нагибает redis и он падает.
скорей всего это spark.sql.files.maxPartitionBytes или repartition
у вас получилось условные 100 партиций спарка, если задать у ярна --num-executors 10, то спарк будет читать и писать по 10 из 100 одновременно

источник

12:08пожаловаться #13

Алексей in Moscow Spark

я так во всяком случае делаю при чтение/записи в бд, чтобы их не грузить сильно

источник

12:09пожаловаться #14

ИК

Иван Калининский... in Moscow Spark

на csv не сработает maxPartitionBytes, если только он не пожат чем-то типа bzip2 или другого разделяемого кодека

источник

12:10пожаловаться #15

ИК