Телеграмм чат группы moscowspark страница 481

2020 November 13

G

Gev in Moscow Spark

Спасибо за уточнение

источник

10:25пожаловаться #1

ИК

Иван Калининский... in Moscow Spark

Gev

Так и делаем

Это неплохой подход. Значит, я понимаю, что проблема с апдейтами и удалениями строк в партициях конечного снепшота? Какой у вас логический формат конечного снепшота? Только актуальные строки, или SCD2, или ещё что-то?

источник

10:50пожаловаться #2

G

Gev in Moscow Spark

Иван Калининский

Это неплохой подход. Значит, я понимаю, что проблема с апдейтами и удалениями строк в партициях конечного снепшота? Какой у вас логический формат конечного снепшота? Только актуальные строки, или SCD2, или ещё что-то?

Я не в курсе что такое SCD2

источник

10:51пожаловаться #3

ИК

Иван Калининский... in Moscow Spark

Slowly changing dimension type 2. Справочник, в котором у каждой записи есть интервал актуальности, обычно указываемый в двух полях: {поле от} и {поле до}

https://ru.m.wikipedia.org/wiki/%D0%9C%D0%B5%D0%B4%D0%BB%D0%B5%D0%BD%D0%BD%D0%BE_%D0%BC%D0%B5%D0%BD%D1%8F%D1%8E%D1%89%D0%B8%D0%B5%D1%81%D1%8F_%D0%B8%D0%B7%D0%BC%D0%B5%D1%80%D0%B5%D0%BD%D0%B8%D1%8F

Wikipedia

Медленно меняющиеся измерения

Медленно меняющиеся измерения (от англ. Slowly Changing Dimensions, SCD) — механизм отслеживания изменений в данных измерения в терминах хранилища данных . Применяется в случае, если данные меняются не очень часто и не по расписанию. Примером могут служить географические данные (местонахождение склада, юридический адрес организации), статус заказчика по программе лояльности или отдел компании, в котором работает её сотрудник.

источник

10:53пожаловаться #4

G

Gev in Moscow Spark

А понял. Не. Только актуальные.

источник

11:21пожаловаться #5

ИК

Иван Калининский... in Moscow Spark

Gev

А понял. Не. Только актуальные.

Значит, надо удалять строки, которые больше не актуальны. Для файловых форматов в HDFS это непросто. Могу предложить три варианта:

1. Сохранить дельту с таким же партиционирование, как снепшот. Это сразу даст вам партиции, в которых есть изменения. Выполнить для каждой партиции {данные снепшота в партиции}.anti_join({данные дельты в партиции}).union({данные дельты в партиции}). Сохранить во временную папку. Проверить. Заменить партицию в снепшоте новой версией

2. Использовать apache iceberg, apache hudi или ещё что-то в таком духе. Начинать тяжело, но в перспективе легче

3. Сделать свой вариант, например с битовыми индексами, или с самодельными бакетами, или с промежуточные noSQL хранилище для дедупликации. Очень сложно, зато можно получить именно то, что нужно и полностью под контролем. Впрочем и риски наибольшие

источник

11:39пожаловаться #6

NN

No Name in Moscow Spark

Паша Финкельштейн

https://smartdataconf.ru/en/

SmartData 2020. Конференция по Data Engineering. 9-12 декабря, онлайн.

SmartData 2020. Data Engineering conference. December 9-12, online.

Streaming, Data Management Systems, DWH Architecture, Data governance, ETL, Orchestration and MLOps.

А подскажи, пожалуйста, кого можно указать как организатора конфы? Имею в виду какое-нибудь ООО, т.е. с юридической точки зрения. Заполняю просто заявку для работодателя.

источник

16:35пожаловаться #7

ПФ

Паша Финкельштейн... in Moscow Spark

No Name

А подскажи, пожалуйста, кого можно указать как организатора конфы? Имею в виду какое-нибудь ООО, т.е. с юридической точки зрения. Заполняю просто заявку для работодателя.

https://www.list-org.com/search?type=name&val=%D0%9E%D0%91%D0%A9%D0%95%D0%A1%D0%A2%D0%92%D0%9E%20%D0%A1%20%D0%9E%D0%93%D0%A0%D0%90%D0%9D%D0%98%D0%A7%D0%95%D0%9D%D0%9D%D0%9E%D0%99%20%D0%9E%D0%A2%D0%92%D0%95%D0%A2%D0%A1%D0%A2%D0%92%D0%95%D0%9D%D0%9D%D0%9E%D0%A1%D0%A2%D0%AC%D0%AE%20%20%D0%94%D0%96%D0%A3%D0%93%20%D0%A0%D0%A3%20%D0%93%D0%A0%D0%A3%D0%9F

List-Org

Список организаций с наименованием ОБЩЕСТВО С ОГРАНИЧЕННОЙ ОТВЕТСТВЕННОСТЬЮ ДЖУГ РУ ГРУП

Регистрационные данные ЕГРЮЛ, контакты, реквизиты, учредители, результаты работы, лицензии, арбитраж организаций с наименованием ОБЩЕСТВО С ОГРАНИЧЕННОЙ ОТВЕТСТВЕННОСТЬЮ ДЖУГ РУ ГРУП.

источник

16:37пожаловаться #8

NN

No Name in Moscow Spark

Паша Финкельштейн

https://www.list-org.com/search?type=name&val=%D0%9E%D0%91%D0%A9%D0%95%D0%A1%D0%A2%D0%92%D0%9E%20%D0%A1%20%D0%9E%D0%93%D0%A0%D0%90%D0%9D%D0%98%D0%A7%D0%95%D0%9D%D0%9D%D0%9E%D0%99%20%D0%9E%D0%A2%D0%92%D0%95%D0%A2%D0%A1%D0%A2%D0%92%D0%95%D0%9D%D0%9D%D0%9E%D0%A1%D0%A2%D0%AC%D0%AE%20%20%D0%94%D0%96%D0%A3%D0%93%20%D0%A0%D0%A3%20%D0%93%D0%A0%D0%A3%D0%9F

List-Org

Список организаций с наименованием ОБЩЕСТВО С ОГРАНИЧЕННОЙ ОТВЕТСТВЕННОСТЬЮ ДЖУГ РУ ГРУП