Коллеги, кто знает, как ограничить шафл? Дело в том, что если надо перемешать действительно крупную таблицу, то я раньше делал по частям, по терабайту, хотя бы. Но это было, когда я использовал внешний API. Было несложно взять сто тысяч файлов, перемешать их, чтобы получить бакеты, записать в конечную директорию и так хоть 100500 раз, весь вопрос только во времени.
Теперь получается сложнее, потому что ShuffleDependency, которая создаётся для стейджа, совсем одна и я не вижу способа как-то её размножить. Может кто-то знает более-менее стандартный способ сделать partial shuffle?