Size: a a a

2021 March 18

EC

Eugene Chipizubov in Moscow Spark
KrivdaTheTriewe
Можно мувнуть не то )
Любым инстурментом можно мувнуть не то
источник

SK

Sergey Klimov in Moscow Spark
Вроде в хайве есть что-то про dynamic partition overwrite
источник

AA

Aleksandr Aleksandro... in Moscow Spark
Есть distcp ещё. Там есть разные опции типо апдецта или оверрацта
источник

G

Gev in Moscow Spark
Sergey Klimov
Вроде в хайве есть что-то про dynamic partition overwrite
Дав от именно что только в hiveи только начиная с версии 2ю3
источник

G

Gev in Moscow Spark
источник

AK

Alena Korogodova in Moscow Spark
Aleksandr Aleksandrov
Есть distcp ещё. Там есть разные опции типо апдецта или оверрацта
+++
И потом msck repair
источник

AK

Alena Korogodova in Moscow Spark
И норм)
источник

AA

Aleksandr Aleksandro... in Moscow Spark
Ещё как вариант ты можешь просто запросом сначала определить какие партиции у тебя, потом удалить каталоги с этими партициями и записать аппендом
источник

G

Gev in Moscow Spark
Aleksandr Aleksandrov
Ещё как вариант ты можешь просто запросом сначала определить какие партиции у тебя, потом удалить каталоги с этими партициями и записать аппендом
Ну это самый простой и самы НЕ безопстный способ. А если я удалю а новые партиции не создам? Я хотел с начала убедиться что у меня новые партиции загрузились и только потом удалять
источник

AA

Aleksandr Aleksandro... in Moscow Spark
Gev
Ну это самый простой и самы НЕ безопстный способ. А если я удалю а новые партиции не создам? Я хотел с начала убедиться что у меня новые партиции загрузились и только потом удалять
Ну тогда просто запиши в сторонку, потом также циклом удали старые и замувь. Мув быстро выполняется
источник

G

Gev in Moscow Spark
Aleksandr Aleksandrov
Ну тогда просто запиши в сторонку, потом также циклом удали старые и замувь. Мув быстро выполняется
Ага. Я так по сути и собирался - только тут тоже проблема - как смувить? Чем? fs.rename грузит так же все на все
источник

AA

Aleksandr Aleksandro... in Moscow Spark
Можно ещё получить список партиций и на уровне драйвера запись распараллелить и писать в цикле сразу оверрайт каждой конкретной партиции.
источник

G

Gev in Moscow Spark
Aleksandr Aleksandrov
Можно ещё получить список партиций и на уровне драйвера запись распараллелить и писать в цикле сразу оверрайт каждой конкретной партиции.
Оц. ну вот так вот точно у меня не получиться - выйдет бесконечный цикл по времени так как данных не мало
источник

AA

Aleksandr Aleksandro... in Moscow Spark
Не бесконечный, они же все параллельно будут писаться, если фэир шедулер включишь. ещё и репартиционировать каждую партицию можно нормально относительно количества данных
источник

N

Nail in Moscow Spark
А чем fs.delete и fs.rename по списку партиций не подходит?
источник

N

Nail in Moscow Spark
Вряд ли можно придумать что-то быстрее
источник
2021 March 19

ДД

Джон Дориан... in Moscow Spark
Опередил меня
источник

ДД

Джон Дориан... in Moscow Spark
источник
2021 March 21

ПФ

Паша Финкельштейн... in Moscow Spark
А вы видели обсуждение observe API для батчей, да?
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Тут кажись deequ сможет прям намного проще стать (и каждый сможет написать своё дата кволити)
источник