Вообще мне казалось что вся мощь хадупа в том что они не делят данные и место расчета. Где храним там и считаем. Может вам зайдет старый map-reduce (hive) так как время на перекладку из одного кластера в другой можно просто потратить на расчет.
В нормальных ДЦ время передачи данных с ноды на ноду 0.0001сек, запись на диск занимает значительно больше времени. Также с использованием дата локалити есть проблема, когда куча пользователей в одном большом хадупе, у всех спарк пытается экзекутор получить на ноде с данными и не может, так как там всё занято два часа. Запуститься на свободной ноде и считать данные по сети значительно быстрее