Size: a a a

2021 April 01

NN

No Name in Moscow Spark
Иван Калининский
да, или писать свою реализацию (это возможно) или ждать, пока сделают (не дождёмся)
Ох. Ну, как я думал. Пасиб)
источник

NN

No Name in Moscow Spark
Евгений Глотов
А где-то в коде джойна есть опора на гарантию сортировки в бакетах, или это так, для оптимизации хранения используется?
Жень, а переведи для тупых, на практике это что означает?)
источник

ИК

Иван Калининский... in Moscow Spark
Ну, ещё мож быть форматы типа hudi помогут
источник

ЕГ

Евгений Глотов... in Moscow Spark
No Name
Жень, а переведи для тупых, на практике это что означает?)
Ну, если в орке будет написано, что он отсортирован по колонке джойна, то sortmerge join не будет не только шаффлить, но и сортировать, джойн вообще без сложных алгоритмов
источник

NN

No Name in Moscow Spark
Иван Калининский
Ну, ещё мож быть форматы типа hudi помогут
А там что?
источник

ИК

Иван Калининский... in Moscow Spark
а там есть мутабельность файлов!
источник

NN

No Name in Moscow Spark
Иван Калининский
а там есть мутабельность файлов!
А в дельте же тоже есть, получается?
источник

ИК

Иван Калининский... in Moscow Spark
Евгений Глотов
Ну, если в орке будет написано, что он отсортирован по колонке джойна, то sortmerge join не будет не только шаффлить, но и сортировать, джойн вообще без сложных алгоритмов
peak memory usage - в двадцать раз меньше!
источник

NN

No Name in Moscow Spark
Евгений Глотов
Ну, если в орке будет написано, что он отсортирован по колонке джойна, то sortmerge join не будет не только шаффлить, но и сортировать, джойн вообще без сложных алгоритмов
Понял)
источник

ИК

Иван Калининский... in Moscow Spark
No Name
А в дельте же тоже есть, получается?
получается, есть, но в delta OSS был json с версией файлов, и файлы дублировались! это было в 2019
источник

NN

No Name in Moscow Spark
Евгений Глотов
Ну, если в орке будет написано, что он отсортирован по колонке джойна, то sortmerge join не будет не только шаффлить, но и сортировать, джойн вообще без сложных алгоритмов
Но это, опять таки, перестает работать сразу же, как только файлов становится >1, так?
источник

ЕГ

Евгений Глотов... in Moscow Spark
Иван Калининский
peak memory usage - в двадцать раз меньше!
На укладку долётов с сортировкой больше ресурсов потратим😐
источник

ИК

Иван Калининский... in Moscow Spark
Евгений Глотов
На укладку долётов с сортировкой больше ресурсов потратим😐
полностью бесплатно вообще ничего не бывает ^^
источник

ЕГ

Евгений Глотов... in Moscow Spark
Ну хоть спарк бесплатный, и то ок)
источник

NN

No Name in Moscow Spark
Иван Калининский
получается, есть, но в delta OSS был json с версией файлов, и файлы дублировались! это было в 2019
@renardeinside не подскажешь, как с этим сейчас?
источник

NN

No Name in Moscow Spark
Евгений Глотов
Ну хоть спарк бесплатный, и то ок)
Ну это если не пытаться переводить в деньги те усилия, которые мы прикладываем, чтобы джобы более-менее прилично работали)
источник

ИК

Иван Калининский... in Moscow Spark
No Name
Но это, опять таки, перестает работать сразу же, как только файлов становится >1, так?
org.apache.spark.sql.execution.DataSourceScanExec

// In case of bucketing, its possible to have multiple files belonging to the
// same bucket in a given relation. Each of these files are locally sorted
// but those files combined together are not globally sorted. Given that,
// the RDD partition will not be sorted even if the relation has sort columns set
// Current solution is to check if all the buckets have a single file in it

Всё однозначно написано
источник

NN

No Name in Moscow Spark
Иван Калининский
org.apache.spark.sql.execution.DataSourceScanExec

// In case of bucketing, its possible to have multiple files belonging to the
// same bucket in a given relation. Each of these files are locally sorted
// but those files combined together are not globally sorted. Given that,
// the RDD partition will not be sorted even if the relation has sort columns set
// Current solution is to check if all the buckets have a single file in it

Всё однозначно написано
И не поспоришь. Евгений , пошли пилить свой глобал сорт
источник

NN

No Name in Moscow Spark
источник

ЕГ

Евгений Глотов... in Moscow Spark
No Name
И не поспоришь. Евгений , пошли пилить свой глобал сорт
Лучше вот как раз напилить оверврайт аппенд)
источник