Попробую обрисовать задачу. Есть 10 паркет файлов 5 гб , и спарк с кучей ресурсов. Мне кажется что работают не все. Что надо сделать чтобы все ресурсы тратились на задачу и отрабатывали менее чем за секунды? Принудительно в скрипте грантовать ресурсы?
Уменьшить размер одного таска на чтение данных, таким образом вырастет число тасков
Но никак не может быть спарком на чтение 5гб один таск создан, как минимум будет 5*1024/128 = 40 тасков. Если они все работают в одном экзекуторе с одним ядром, а ресурсы в ярне простаивают, значит настройки ярна или спарка неправильные, скорее всего и того, и другого