Телеграмм чат группы moscowspark страница 323

13:20пожаловаться #1

А

Подскажите, создал таблицу с кластеризацией
CLUSTERED BY(col1) SORTED BY(col1, col2) INTO 4 BUCKETS
делаю insert через spark sql, но данные вставляются не кластеризованно (файлов создается значительно больше 4)
как spark sql принудить делать кластеризацию, так же как это делается в хайве (hive.enforce.bucketing, hive.enforce.sorting ) ?

13:53пожаловаться #2

ИК

Алексей

Подскажите, создал таблицу с кластеризацией
CLUSTERED BY(col1) SORTED BY(col1, col2) INTO 4 BUCKETS
делаю insert через spark sql, но данные вставляются не кластеризованно (файлов создается значительно больше 4)
как spark sql принудить делать кластеризацию, так же как это делается в хайве (hive.enforce.bucketing, hive.enforce.sorting ) ?

Если не путаю, то spark будет создавать по четыре файла для каждой партиции RDD. Если сделать df.Coalesce(1),тогда будет 4 файла. Собственно, из-за такого поведения я и не стал использовать бакетинг as is. Пришлось наколхозить repartition по некоторым выражениям, но hive про это ничего не знает (

15:10пожаловаться #3

ИК

Why is Spark saveAsTable with bucketBy creating thousands of files?

Вот пруф: https://stackoverflow.com/questions/48585744/why-is-spark-saveastable-with-bucketby-creating-thousands-of-files

Stack Overflow

Context

Spark 2.0.1, spark-submit in cluster mode. I am reading a parquet file from hdfs:

val spark = SparkSession.builder
.appName("myApp")
.config("hive.metastore.uris", "thrift://X...

15:13пожаловаться #4

ИК

I have one doubt regarding bucketing in hive. I have created one temporary table which is bucketed on column key.

Through spark SQL I am inserting data into this temporary table. I have enabled the

И вот ещё неоднозначный материал: https://stackoverflow.com/questions/51654842/hive-bucketing-through-sparksql

Stack Overflow

Hive bucketing through sparkSQL

15:14пожаловаться #5

А

спасиб, я короче пока забил на эту тему. Попробовал еще без sparksql, просто через апи сделать bucketBy + sortBy и записать в папку партиции таблицы, а спарк сказал, что пока это не поддерживается

15:15пожаловаться #6

ИК

Алексей

спасиб, я короче пока забил на эту тему. Попробовал еще без sparksql, просто через апи сделать bucketBy + sortBy и записать в папку партиции таблицы, а спарк сказал, что пока это не поддерживается

И не будет, походу (

15:16пожаловаться #7

А

почему? это так удобно, в хайве постоянно пользовался

15:16пожаловаться #8

А

удобно в плане, что эти бакеты потом при селектах используются, или если 2 таблицы одинаково порезаны и отсортированы, то можно сделать чисто мап-джойн

15:17пожаловаться #9

ИК

Да и я бы не против, если б работало так. Но, вот уже год, как я смотрю на этот вопрос и он никак не решается.
Так, пару сотен строк кода пришлось писать, чтобы сделать что-то похожее, но это внешняя приблуда, а не общее решение

15:19пожаловаться #10

А

+ в сторону холивара: хайв - спаркскл)

15:20пожаловаться #11

Sa

Salam andra in Moscow Spark

Всем привет) подскажите плиз можно как нибудь выключить валидацию spark.sql(...), при "неверном" выражении оно бросает исключение