Кто-нибудь может подсказать почему Спарк при записи двух больших партиций с repartition(my_col, rand * 8)+ writer.partitionBy(my_col) все равно оставляет большие жирные партиции и не учитывает никак rand?
стоп, какой из вариантов: 1) hdp со стандартными их пакетами от хортона/клоудеры 2) ваниль из апача и сами раскатывали 3) hdp, но сам хадуп и hive уже обновили до апачевских версий
стоп, какой из вариантов: 1) hdp со стандартными их пакетами от хортона/клоудеры 2) ваниль из апача и сами раскатывали 3) hdp, но сам хадуп и hive уже обновили до апачевских версий
то есть в той версии что вы скачали bin-without-hadoop
нету hive & hadoop - что ожидаемо, так как пользователь должен их предоставить но так же нету spark-hive - классов обёрток для интеграции спарка и хайва, вот это уже странно как-то
то есть в той версии что вы скачали bin-without-hadoop
нету hive & hadoop - что ожидаемо, так как пользователь должен их предоставить но так же нету spark-hive - классов обёрток для интеграции спарка и хайва, вот это уже странно как-то
если добавить spark-hive 2.11 _ 2.47 Это полседняя версия для Spark2, то внезапно упадет с ошибкой Unrecognized Hadoop major version number: 3.3.0