Size: a a a

2020 November 13

G

Gev in Moscow Spark
Спасибо за уточнение
источник

ИК

Иван Калининский... in Moscow Spark
Gev
Так и делаем
Это неплохой подход. Значит, я понимаю, что проблема с апдейтами и удалениями строк в партициях конечного снепшота? Какой у вас логический формат конечного снепшота? Только актуальные строки, или SCD2, или ещё что-то?
источник

G

Gev in Moscow Spark
Иван Калининский
Это неплохой подход. Значит, я понимаю, что проблема с апдейтами и удалениями строк в партициях конечного снепшота? Какой у вас логический формат конечного снепшота? Только актуальные строки, или SCD2, или ещё что-то?
Я не в курсе что такое SCD2
источник

ИК

Иван Калининский... in Moscow Spark
Slowly changing dimension type 2. Справочник, в котором у каждой записи есть интервал актуальности, обычно указываемый в двух полях: {поле от} и {поле до}

https://ru.m.wikipedia.org/wiki/%D0%9C%D0%B5%D0%B4%D0%BB%D0%B5%D0%BD%D0%BD%D0%BE_%D0%BC%D0%B5%D0%BD%D1%8F%D1%8E%D1%89%D0%B8%D0%B5%D1%81%D1%8F_%D0%B8%D0%B7%D0%BC%D0%B5%D1%80%D0%B5%D0%BD%D0%B8%D1%8F
источник

G

Gev in Moscow Spark
А понял. Не. Только актуальные.
источник

ИК

Иван Калининский... in Moscow Spark
Gev
А понял. Не. Только актуальные.
Значит, надо удалять строки, которые больше не актуальны. Для файловых форматов в HDFS это непросто. Могу предложить три варианта:

1. Сохранить дельту с таким же партиционирование, как снепшот. Это сразу даст вам партиции, в которых есть изменения. Выполнить для каждой партиции {данные снепшота в партиции}.anti_join({данные дельты в партиции}).union({данные дельты в партиции}). Сохранить во временную папку. Проверить. Заменить партицию в снепшоте новой версией

2. Использовать apache iceberg, apache hudi или ещё что-то в таком духе. Начинать тяжело, но в перспективе легче

3. Сделать свой вариант, например с битовыми индексами, или с самодельными бакетами, или с промежуточные noSQL хранилище для дедупликации. Очень сложно, зато можно получить именно то, что нужно и полностью под контролем. Впрочем и риски наибольшие
источник

NN

No Name in Moscow Spark
А подскажи, пожалуйста, кого можно указать как организатора конфы? Имею в виду какое-нибудь ООО, т.е. с юридической точки зрения. Заполняю просто заявку для работодателя.
источник

ПФ

Паша Финкельштейн... in Moscow Spark
No Name
А подскажи, пожалуйста, кого можно указать как организатора конфы? Имею в виду какое-нибудь ООО, т.е. с юридической точки зрения. Заполняю просто заявку для работодателя.
источник

NN

No Name in Moscow Spark
О, пасиб)
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Переслано от Dmitriy Titov
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Вот тут можно спрашивать про смартдату вполне
источник

PK

Pavel Klemenkov in Moscow Spark
О, уже 904 человека в чатике. В связи с чем нашествие?)
источник

NN

No Name in Moscow Spark
Pavel Klemenkov
О, уже 904 человека в чатике. В связи с чем нашествие?)
Мне кажется, что периодически кто-нибудь постит ссылку на группу, и слетаются)
источник

PK

Pavel Klemenkov in Moscow Spark
No Name
Мне кажется, что периодически кто-нибудь постит ссылку на группу, и слетаются)
Вот и интересно, откуда на этот раз
источник

С

Сюткин in Moscow Spark
Pavel Klemenkov
О, уже 904 человека в чатике. В связи с чем нашествие?)
Обещали конфу спарка с едой и афтерпати в баре молодому поколению бигдатаспарководов
источник

С

Сюткин in Moscow Spark
Если бы не ковid
источник

PK

Pavel Klemenkov in Moscow Spark
Сюткин
Обещали конфу спарка с едой и афтерпати в баре молодому поколению бигдатаспарководов
Валера, а че, корпоративы уже начались?)
источник

С

Сюткин in Moscow Spark
Pavel Klemenkov
Валера, а че, корпоративы уже начались?)
Ближайший новогодний, дома с салатиком оливье

Концерты пришлось отменить
источник
2020 November 17

KP

Kristina Popova in Moscow Spark
Привет
Может кто подсказать, как посчитать предыдущий день в pyspark? В питоне это timedelta..
источник

АР

Андрей Романов... in Moscow Spark
Kristina Popova
Привет
Может кто подсказать, как посчитать предыдущий день в pyspark? В питоне это timedelta..
источник