Size: a a a

2021 April 01

ЕГ

Евгений Глотов... in Moscow Spark
Чтобы сохранить сортировку при долётах)
источник

NN

No Name in Moscow Spark
Евгений Глотов
Лучше вот как раз напилить оверврайт аппенд)
Ну или так)
источник

NN

No Name in Moscow Spark
Евгений Глотов
Лучше вот как раз напилить оверврайт аппенд)
Хотя, видишь, тот же худи умеет в апдейты файлов. Мб и дельта та же умеет сейчас, и проще будет что-то из этого заюзать
источник

N

Nikita Blagodarnyy in Moscow Spark
No Name
Хотя, видишь, тот же худи умеет в апдейты файлов. Мб и дельта та же умеет сейчас, и проще будет что-то из этого заюзать
Он не апдейтит файлы под капотом.
источник

N

Nikita Blagodarnyy in Moscow Spark
Паркет не поддерживает аппенд или партиал update
источник

N

Nikita Blagodarnyy in Moscow Spark
по сути это тот же самый full outer join с переписыванием, но на стероидах и с кучей оптимизаций
источник

NN

No Name in Moscow Spark
Nikita Blagodarnyy
по сути это тот же самый full outer join с переписыванием, но на стероидах и с кучей оптимизаций
Ты про дельту, как я понял?
источник

А

Алексей in Moscow Spark
и после этого хоронят хайв, почему там с 1 версии это работает, а в спарке спустя столько нет
источник

А

Алексей in Moscow Spark
неужели никому не надо дописывать бакетированные данные в партиции таблиц
источник

А

Алексей in Moscow Spark
получается, если вручную оперировать файлами (удалять старые бакеты и дописывать новые), а потом сделать repair table, то так будет работать?
источник

NN

No Name in Moscow Spark
Алексей
получается, если вручную оперировать файлами (удалять старые бакеты и дописывать новые), а потом сделать repair table, то так будет работать?
В смысле? Бакет в том же hdfs представлен по факту в виде директории, в которой уже отдельные файлы. Как ты хочешь в файлах бакеты удалять и дописывать?
источник

N

Nikita Blagodarnyy in Moscow Spark
No Name
Ты про дельту, как я понял?
про худи
источник

А

Алексей in Moscow Spark
No Name
В смысле? Бакет в том же hdfs представлен по факту в виде директории, в которой уже отдельные файлы. Как ты хочешь в файлах бакеты удалять и дописывать?
если нужно перезаписать 1 бакетированную партицию в партицированной таблице. Получается нужно удаляить партицию, а потом сделать append? Или есть способ перезаписи из коробки? spark.sql.sources.partitionOverwriteMode?
источник

NN

No Name in Moscow Spark
Nikita Blagodarnyy
про худи
Ясно
источник

NN

No Name in Moscow Spark
Алексей
если нужно перезаписать 1 бакетированную партицию в партицированной таблице. Получается нужно удаляить партицию, а потом сделать append? Или есть способ перезаписи из коробки? spark.sql.sources.partitionOverwriteMode?
Так, я чёт не уловил. Ты имеешь в виду партиции, которые файлы, или те, которые partitionBy? Если последние, то, насколько я помню, бакеты внутри партиций, т.е. партиция перезаписывается так же, как раньше. Но я не уверен, потому что последний раз бакетировал год-полтора назад.
источник

R

Renarde in Moscow Spark
Иван Калининский
получается, есть, но в delta OSS был json с версией файлов, и файлы дублировались! это было в 2019
это очень странная история, ибо json с версиями как раз таки содержит уникальный список файлов. А есть какая-то конкретика, линк на issue например?
источник

ИК

Иван Калининский... in Moscow Spark
Renarde
это очень странная история, ибо json с версиями как раз таки содержит уникальный список файлов. А есть какая-то конкретика, линк на issue например?
это два с лишним года назад было, мне уже нерелевантно. уникальный список, да, наверное, но когда читали обычным select from hivedb.tablename , то получали дубли. Был сделан вывод, что это просто дозапись файлов и трекинг актуальных
источник

NN

No Name in Moscow Spark
Renarde
это очень странная история, ибо json с версиями как раз таки содержит уникальный список файлов. А есть какая-то конкретика, линк на issue например?
А как сейчас у дельты с бакетированием? Есть ли возможность дописывать в файлы и сортить внутри, а не делать бесконечные мелкие аппенды?)
источник

AS

Andrey Smirnov in Moscow Spark
Алексей
и после этого хоронят хайв, почему там с 1 версии это работает, а в спарке спустя столько нет
у них один файл на бакет
источник

NN

No Name in Moscow Spark
Andrey Smirnov
у них один файл на бакет
А есть какие-то преимущества в большем количестве файлов на бакет?
источник