Я, конечно, деталей Вашего спарк-приложения не знаю, но локальный спарк очевидно шустрее стартанет, чем развернутый на кластере, там накладных будет меньше гораздо. Тем более, если ещё и данных мало.
Я использую PySpark, локально он создаёт сессию и подключается как stand-alone, если я правильно понял, то в AWS там тоже сессия, но через YARN и Livy.
Хочется что-то вроде Спарк, потому что данные могут быть очень вложенные и схема меняется, Спарк умеет с таким работать, не уверен, как в Postgres такое прикручивают
Ага, понимаю, просто большинство файлов несколько мегабайт, но есть по 500мб плюс, и ещё они такие маленькие, потому что parquet отлично ужимает, в большинстве случаев у нас >50% сжатие получается