Телеграмм чат группы moscowspark страница 480

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Moscow Spark

910 membersпожаловаться на группу

2020 November 12

ИГ

Игорь Гомановский... in Moscow Spark

Тогда, наверное, проще всего смотреть на количество партиций (это партиции спарк джоба, а не таблицы) в хранилище (df.rdd.getNumPartitions()) и сделать repartition обоих наборов данных по ключам join по этому количеству партиций

источник

12:16пожаловаться #1

ИГ

Игорь Гомановский... in Moscow Spark

Но решение догружать инкремент с join'ом на всё хранилище мне не нравится. Каждый следующий запуск будет дольше предыдущего. Может быть грузить всё (raw), а после выполнить дедубликацию в хранилище (ods)?

источник

12:21пожаловаться #2

ПФ

Паша Финкельштейн... in Moscow Spark

@pomadchin @krivdathetriewe

источник

15:56пожаловаться #3

AD

Alex D in Moscow Spark

Коллеги, а подскажите, кто в России читает хорошие Advanced курсы по Spakу, для корпоративного обучения (интересует именно Advanced, а не вводный курс)?

источник

18:51пожаловаться #4

NN

No Name in Moscow Spark

Коллеги, а подскажите, кто в России читает хорошие Advanced курсы по Spakу, для корпоративного обучения (интересует именно Advanced, а не вводный курс)?

Возникло ощущение, что никто. Самому копаться в сырцах продуктивнее будет, да и под ваши кейсы конкретно никто читать не будет, многое же и от данных зависит.

источник

19:00пожаловаться #5

PK

Pavel Klemenkov in Moscow Spark

Коллеги, а подскажите, кто в России читает хорошие Advanced курсы по Spakу, для корпоративного обучения (интересует именно Advanced, а не вводный курс)?

Яцека выпишите )

источник

19:02пожаловаться #6

NN

No Name in Moscow Spark

Коллеги, а подскажите, кто в России читает хорошие Advanced курсы по Spakу, для корпоративного обучения (интересует именно Advanced, а не вводный курс)?

Хотя мб у нас просто разное представление о том, что такое эдвенсед)

источник

19:02пожаловаться #7

ПФ

Паша Финкельштейн... in Moscow Spark

Pavel Klemenkov

Яцека выпишите )

Он на smartdata будет как раз, идеальный момент чтобы за него зацепиться

источник

19:03пожаловаться #8

AD

Alex D in Moscow Spark

Pavel Klemenkov

Яцека выпишите )

Спасибо, расмотрим, хорошее предложение!

источник

19:04пожаловаться #9

AD

Alex D in Moscow Spark

Паша Финкельштейн

Он на smartdata будет как раз, идеальный момент чтобы за него зацепиться

А когда Смартдата?

источник

19:04пожаловаться #10

ПФ

Паша Финкельштейн... in Moscow Spark

А когда Смартдата?

С 9 по 12 декабря. 4 дня, 4 трека по два доклада

источник

19:05пожаловаться #11

ПФ

Паша Финкельштейн... in Moscow Spark

https://smartdataconf.ru/en/

SmartData 2020. Конференция по Data Engineering. 9-12 декабря, онлайн.

SmartData 2020. Data Engineering conference. December 9-12, online.

Streaming, Data Management Systems, DWH Architecture, Data governance, ETL, Orchestration and MLOps.

источник

19:05пожаловаться #12

AD

Alex D in Moscow Spark

Возникло ощущение, что никто. Самому копаться в сырцах продуктивнее будет, да и под ваши кейсы конкретно никто читать не будет, многое же и от данных зависит.

Согласен, но для корпоративного обучения надо бы курсы.

источник

19:06пожаловаться #13

AD

Alex D in Moscow Spark

Паша Финкельштейн

С 9 по 12 декабря. 4 дня, 4 трека по два доклада

Ага, понял, сенкс.

источник

19:06пожаловаться #14

ПФ

Паша Финкельштейн... in Moscow Spark

Драфт программы опубликован уже, кстати

источник

19:06пожаловаться #15

ПФ

Паша Финкельштейн... in Moscow Spark

Ага, понял, сенкс.

Там ещё будет @tenKe, тоже про Спарк, например.

источник

19:12пожаловаться #16

AD

Alex D in Moscow Spark

Паша Финкельштейн

Там ещё будет @tenKe, тоже про Спарк, например.

Ага, спасибо, я знаю.

источник

19:15пожаловаться #17

2020 November 13

ПФ

Паша Финкельштейн... in Moscow Spark

Сейчас, чувствую, хорошо будет

источник

09:42пожаловаться #18

ИК

Иван Калининский... in Moscow Spark

Да, конечно. В общем. есть глобальная партиция снапшота и нам надо, прочитать ее и выделить дельту относительно того, что уже было вычитано. И положить уже раскинув по партициям.

Выделить инкремент через join-очень дорогая операция, даже если, как по учебнику, это две бакетированые и сортированные таблицы.

Я советую пойти более дешёвым путем, а именно, найти поле, которое монотонно возрастает. Сохранить его максимальное полученное значение. И сделать фильтр по условию {поле > последнее наибольшее значение}. Это проверенная, можно сказать, классическая техника выделения инкремента, имеющая линейное время выполнения на любом наборе данных.

Если персистить последнее значение невозможно, то находите max({поле из снепшота}) и кидайте в условие фильтра. Все равно быстрее, чем join

источник

10:23пожаловаться #19

G

Gev in Moscow Spark

Иван Калининский

Выделить инкремент через join-очень дорогая операция, даже если, как по учебнику, это две бакетированые и сортированные таблицы.

Я советую пойти более дешёвым путем, а именно, найти поле, которое монотонно возрастает. Сохранить его максимальное полученное значение. И сделать фильтр по условию {поле > последнее наибольшее значение}. Это проверенная, можно сказать, классическая техника выделения инкремента, имеющая линейное время выполнения на любом наборе данных.

Если персистить последнее значение невозможно, то находите max({поле из снепшота}) и кидайте в условие фильтра. Все равно быстрее, чем join

Так и делаем

источник

10:25пожаловаться #20