А понял. Не. Только актуальные.
Значит, надо удалять строки, которые больше не актуальны. Для файловых форматов в HDFS это непросто. Могу предложить три варианта:
1. Сохранить дельту с таким же партиционирование, как снепшот. Это сразу даст вам партиции, в которых есть изменения. Выполнить для каждой партиции {данные снепшота в партиции}.anti_join({данные дельты в партиции}).union({данные дельты в партиции}). Сохранить во временную папку. Проверить. Заменить партицию в снепшоте новой версией
2. Использовать apache iceberg, apache hudi или ещё что-то в таком духе. Начинать тяжело, но в перспективе легче
3. Сделать свой вариант, например с битовыми индексами, или с самодельными бакетами, или с промежуточные noSQL хранилище для дедупликации. Очень сложно, зато можно получить именно то, что нужно и полностью под контролем. Впрочем и риски наибольшие