Причем эту партицию переформировывают. так что даже к дате фалов не привязаться
Ладно, предположим, что имеется один файл, который читается в одну партиции rdd. В таком случае бесполезно даже в данных искать зацепки, потому что изначально это один таск и все преимущества распределенной системы сведены к нулю. Весь набор данных придётся читать и процессить последовательно.
Надеюсь, что такого нигде нет, и там хотя бы огромный паркет, который спарк легко прочитает и создаст rdd с множеством партиций не больше spark.sql.files.maxPartitionBytes.