Коллеги, привет!
Посоветуйте плиз, как можно наиболее эффективным образом загрузить таблицу из Hive в Green Plum размером в 10Гб Spark-ом?
Возник кейс, что стандартный механизм загрузки через метод write с jdbc-подключением + указанием конфига на numPartitions (5) и batchsize = ‘1000000’ приводит к тому, что джоба забила логи в Green Plum однострочными insert и почти положила сервак из-за этого, хотя планировалось загружать батчами по 1000000 строк.
Мб кто-то решал такую проблему и может посоветовать что-то?