Size: a a a

2021 April 26

ЕГ

Евгений Глотов... in Moscow Spark
Так что пусть поддерживают)
источник

ЕГ

Евгений Глотов... in Moscow Spark
Плюс  есть ещё и аналитики, которые в 2к21 уже должны знать питон, но ещё не должны знать скалу)
источник

ДД

Джон Дориан... in Moscow Spark
Неиронично увидел такой код на последнем проекте. Много думал
источник

ЕГ

Евгений Глотов... in Moscow Spark
Для нас это вполне норм - грузим пару лямов записей обучения в пандас, обучаемся, применяем на всех данных с помощью пандас юдф
источник

АЖ

Андрей Жуков... in Moscow Spark
Но лучше бы они питон не знали
источник

ЕГ

Евгений Глотов... in Moscow Spark
Лучше б создатель питона замутил всё на джаве, согласен)
источник

ЕГ

Евгений Глотов... in Moscow Spark
А потом создатели либ)
источник
2021 April 27

EM

Eugene Maruschenko in Moscow Spark
Кроме jvm есть еще другой мир. Хорошо что есть выбор.
источник

AS

Azamat Sultanov in Moscow Spark
Всем привет! Кто-либо сталкивался с проблемой конкурентной записи субпартиций несколькими спарк джобами/потоками по одному и тому же пути? Из-за того, что все потоки используют в качестве временного хранилища директорию с общим названием _temporary2, происходят конфликты потоков.

Схематично выглядит так:
https://www.outbrain.com/techblog/wp-content/uploads/2020/03/ad.jpg
источник

АА

Артем Анистратов... in Moscow Spark
Сталкивался, решил проблему тем что писал данные отдельно в подпапки. В конце задачи перемещал все файлы из подпапок, а подпапки удалял
источник

N

Nikita Blagodarnyy in Moscow Spark
+1. только подпапки могут не подойти, если hive смотрит на всю родительскую директорию /data/table. приходится городить что-то типа /data/interm/table/thread_100500
источник

ЕГ

Евгений Глотов... in Moscow Spark
Надо использовать outputcommitter v2
источник

AS

Azamat Sultanov in Moscow Spark
Просто вся фишка в том, что при записи используется динамический partitionOverWriteMode и отказываться от автоматического партицирования с историей не хотелось бы
источник

AS

Azamat Sultanov in Moscow Spark
Имеете в виду

"mapreduce.fileoutputcommitter.algorithm.version", "2"

?
источник

ЕГ

Евгений Глотов... in Moscow Spark
Да
источник

AS

Azamat Sultanov in Moscow Spark
Спасибо!
источник

ЕГ

Евгений Глотов... in Moscow Spark
Вот это включил, и стала работать параллельная запись, там как-то по-хитрому начинает создаваться темп, если основная папка уже забита другим процессом
источник

ЕГ

Евгений Глотов... in Moscow Spark
Да и вообще вроде лучше тема
источник

ЕГ

Евгений Глотов... in Moscow Spark
Для aws S3 особенно
источник

ЕГ

Евгений Глотов... in Moscow Spark
Меньше CP
источник