Подскажите, создал таблицу с кластеризацией
CLUSTERED BY(col1) SORTED BY(col1, col2) INTO 4 BUCKETS
делаю insert через spark sql, но данные вставляются не кластеризованно (файлов создается значительно больше 4)
как spark sql принудить делать кластеризацию, так же как это делается в хайве (hive.enforce.bucketing, hive.enforce.sorting ) ?
Если не путаю, то spark будет создавать по четыре файла для каждой партиции RDD. Если сделать df.Coalesce(1),тогда будет 4 файла. Собственно, из-за такого поведения я и не стал использовать бакетинг as is. Пришлось наколхозить repartition по некоторым выражениям, но hive про это ничего не знает (