Кто-нибудь может подсказать почему Спарк при записи двух больших партиций с repartition(my_col, rand * 8)+ writer.partitionBy(my_col) все равно оставляет большие жирные партиции и не учитывает никак rand?
а сколько уникальных значений у колонки my_col? а то может их 2 всего