Всем привет! Кто-либо сталкивался с проблемой конкурентной записи субпартиций несколькими спарк джобами/потоками по одному и тому же пути? Из-за того, что все потоки используют в качестве временного хранилища директорию с общим названием _temporary2, происходят конфликты потоков.
+1. только подпапки могут не подойти, если hive смотрит на всю родительскую директорию /data/table. приходится городить что-то типа /data/interm/table/thread_100500
Просто вся фишка в том, что при записи используется динамический partitionOverWriteMode и отказываться от автоматического партицирования с историей не хотелось бы
Вот это включил, и стала работать параллельная запись, там как-то по-хитрому начинает создаваться темп, если основная папка уже забита другим процессом