А чем плоха старая школа? Опыт и надёжность ей сопутствуют
Я имел в виду, сохранять колонки с повторяющиеся именами в rdbms-like схемах я не пытался и не буду никаким способом, ни старым ни новым))
Ещё немного поясню:
https://habr.com/ru/company/otus/blog/529684/Вот такую статью мне посоветовали, когда я встретил некоторые проблемы с вызовом rdd, если коротко, в ней говорится: "не используйте rdd". При том, что подход в самой статье не продуманный и поверхностный, catalyst и tungsten разработаны не просто так, и кодеген очень мощная фича. Это, конечно, не отменяет того, что rdd положены в основу и с ними можно работать при создании кастомных расширений, в том числе датасорсов. Но необязательно, вот пример DataSourceV2:
https://aamargajbhiye.medium.com/speed-up-apache-spark-job-execution-using-a-custom-data-source-fd791a0fa4b0Может V2 чем-то нехорош?