Size: a a a

2021 February 13

ЕГ

Евгений Глотов... in Moscow Spark
Чем меньше файлов, тем быстрее запись в хдфс, до некоторых пределов, когда уже реально низкая параллельность записи
источник
2021 February 15

AD

Alexander Dorofeev in Moscow Spark
Всем привет!
Подскажите, плиз, какой JAR нужно использовать, чтобы коннектиться к GreenPlum через SPARK? Попробовал несколько jar для postgresql 9.4, коннект проходит, но читает только структуру таблицы, данные в spark df не попадают
источник

DG

Denis Gabaydulin in Moscow Spark
Кто-нибудь работал со spark-redis? Читаем из csv и кладем в redis. Все просто. Никаких group by/reduce, только map. Размер 300 млн строк. Но джоба пытается сначала все прочитать в память и предсказуемо падает, потому что размер партиции огромен. Если делать много мелких партиций, это нагибает redis и он падает. Что можно подкрутить, чтобы оно работало кусками. Прочитал кусок - сохранил в redis.
источник

DG

Denis Gabaydulin in Moscow Spark
Разумеется, кроме того чтобы в ручную побить этот файл и заливать его частями.
источник

А

Алексей in Moscow Spark
ограничить ресурсы спарка
источник

ИК

Иван Калининский... in Moscow Spark
будет падать быстрее? ))
источник

ИК

Иван Калининский... in Moscow Spark
Никогда не пробовал, но может стоит прочитать csv стримом? Может при этом не будет поднятия всех данных в память?
источник

DG

Denis Gabaydulin in Moscow Spark
Не понятно также, почему оно не пытается спилить на диск, а растет, пока его yarn не прибьет по physical memory limit.
источник

DG

Denis Gabaydulin in Moscow Spark
Иван Калининский
Никогда не пробовал, но может стоит прочитать csv стримом? Может при этом не будет поднятия всех данных в память?
А для file source там есть лимит на пачку, как в кафке?
источник

ИК

Иван Калининский... in Moscow Spark
Denis Gabaydulin
А для file source там есть лимит на пачку, как в кафке?
Не уверен, надо, чтобы кто-то из бывалых подключился ))
источник

А

Алексей in Moscow Spark
имел в виду: сделать много мелких партиций и ограничить ярном нужное число процессов, что бы редис не падал
источник

DG

Denis Gabaydulin in Moscow Spark
Алексей
имел в виду: сделать много мелких партиций и ограничить ярном нужное число процессов, что бы редис не падал
Не совсем понял. А как это сделать?
источник

А

Алексей in Moscow Spark
Denis Gabaydulin
Не совсем понял. А как это сделать?
вы пишете, что уже как то побили на части входные данные:
>Если делать много мелких партиций, это нагибает redis и он падает.
скорей всего это spark.sql.files.maxPartitionBytes или repartition
у вас получилось условные 100 партиций спарка, если задать у ярна --num-executors 10, то спарк будет читать и писать по 10 из 100 одновременно
источник

А

Алексей in Moscow Spark
я так во всяком случае делаю при чтение/записи в бд, чтобы их не грузить сильно
источник

ИК

Иван Калининский... in Moscow Spark
на csv не сработает maxPartitionBytes, если только он не пожат чем-то типа bzip2 или другого разделяемого кодека
источник

ИК

Иван Калининский... in Moscow Spark
и ядер надо по одному на экзекутора давать
источник

NN

No Name in Moscow Spark
Иван Калининский
и ядер надо по одному на экзекутора давать
А это хорошая идея?
источник

ИК

Иван Калининский... in Moscow Spark
не уверен
источник

ЕГ

Евгений Глотов... in Moscow Spark
Alexander Dorofeev
Всем привет!
Подскажите, плиз, какой JAR нужно использовать, чтобы коннектиться к GreenPlum через SPARK? Попробовал несколько jar для postgresql 9.4, коннект проходит, но читает только структуру таблицы, данные в spark df не попадают
Где-то на хитхабе валяется гринплам-коннектор, но вообще он под лицензией пивотал, а пивотал купили вмваре и всё закрыли
источник

ЕГ

Евгений Глотов... in Moscow Spark
По-моему мне пришлось из исходников собирать с гита, и больше я его нигде не видел, и в гите в следующий раз чёт тоже не смог найти😐
источник