Всем привет. Вот такой вопрос. В RDD есть понятие known partitioner. И в джойнах одинаковые известные партишенеры не приводят к пересылкам. Но я никак не помогу понять, работает ли эта терминология для датафреймов? Поэкспериментировав понимаю, что вроде бы нет, Exchange оператору как будто бы плевать на это дело и опять же неясно, как вообще можно сравнить партишенеры двух датафреймов
В плане проверяется partitioning/distribution для обоих DF, потом каталист решает, что использовать по своему усмотрению, собственно партишенер RDD как экземпляр/класс в этой проверке не участвует. Довольно комплексный процесс, дело осложняется тем, что Distibution - sealed и не может быть расширен. С точки зрения нового партишенера для датафреймов не очень удобно, пришлось передавать распределение через аргумент, иначе он не сохраняется