Телеграмм чат группы moscowspark страница 223

Кстати про тренды интересная дискуссия. Все началось с заявления, что MPP базы подменяют хадуп-спарк, потому что лучше используют локальность данных и в целом с текущими технологиями проще стало хранить нужные объемы локально и даже в памяти. С другой стороны был комментарий, что DWH и витрины не всегда нужны и/или заменяются сервисами на данных. Вот последнее интересно, в этом случае производительность менее важна? можно привести примеры сервисов на данных? есть ли соответсвенно тренд витрины на данных -> сервисы на данных?

Подменяют там, где мало данных по количеству или маленькое разнообразие по источникам. Если у тебя 200 гиговые таблички - зачем спарк. И один оракл в источнике.
Но пока хадупчик бесплатен в отличие от любой самой завалящей мпп, его по прежнему будут ставить.

источник

17:27пожаловаться #4

DG

Denis Gabaydulin in Moscow Spark

ClickHouse бесплатен ;-)

источник

19:33пожаловаться #5

DU

Dmitry Ursegov in Moscow Spark

Да и greenplum тоже

источник

19:40пожаловаться #6

ТС

Тимофей Смирнов... in Moscow Spark

да и Druid тоже)

источник

19:41пожаловаться #7

VS

Vladislav 👻 Shishkov... in Moscow Spark

Denis Gabaydulin

ClickHouse бесплатен ;-)

На кх dwh строите? 😂

источник

20:35пожаловаться #8

VS

Vladislav 👻 Shishkov... in Moscow Spark

И где-то читал, что друид тоже не для этих целей...

источник

20:36пожаловаться #9

A

Anton Lebedevich in Moscow Spark

Dmitry Ursegov

Да и greenplum тоже

он живет без платной поддержки? сколько человекочасов в месяц своих инженеров на него уходит?

источник

20:43пожаловаться #10

DU

Dmitry Ursegov in Moscow Spark

Anton Lebedevich

он живет без платной поддержки? сколько человекочасов в месяц своих инженеров на него уходит?

слышал, что используют без поддержки, деталей не знаю

источник

20:55пожаловаться #11

A

Anton Lebedevich in Moscow Spark

слышал ругань на него, любопытно на живых пользователей посмотреть, как оно им

источник

20:57пожаловаться #12

DG

Denis Gabaydulin in Moscow Spark

Vladislav 👻 Shishkov

На кх dwh строите? 😂

Если говорить про меня лично, то я не строил никогда, а сейчас к DWH вообще отношение имею косвенное. Но знаю вполне успешные кейсы, когда единственным хранилищем данных является CH, и он же витрина и база для репортов и аналитики.

источник

21:56пожаловаться #13

VS

Vladislav 👻 Shishkov... in Moscow Spark

Denis Gabaydulin

Если говорить про меня лично, то я не строил никогда, а сейчас к DWH вообще отношение имею косвенное. Но знаю вполне успешные кейсы, когда единственным хранилищем данных является CH, и он же витрина и база для репортов и аналитики.

Кликстримы онли, да

источник

22:05пожаловаться #14

2019 November 25

М

Мохаммад Реза... in Moscow Spark

https://www.youtube.com/watch?v=Ha7_Vf2eZvQ

YouTube

Locality Sensitive Hashing By Spark

Enjoy the videos and music you love, upload original content, and share it all with friends, family, and the world on YouTube.

источник

08:27пожаловаться #15

EN

Eldar Nezametdinov in Moscow Spark

Доброе утро.
Проблема. Есть джоин на двух датаферймах, но один из них со skew.
Как правильно "посолить" ключ, чтобы вычисления были равномерно при джионе?
Или как генерируется правильный "хэш", который будет и для "больших" ключей давай нормальное число партиций и для "малых" ключей тоже? В общем вопросы ...🤷‍♀️

источник

10:30пожаловаться #16

ЛР

Лев Рагулин... in Moscow Spark

Vladislav 👻 Shishkov

Не совсем понятно, что значит сервис на данных?

Имеется в виду предосталение данных через некое API. При этом наличие витрины не исключается. Это немного другой паттерн доступа к данным. Для DWH специфично витрина + BI. витрина + сервис - это другой паттерн. И третий паттерн вообще без витрины (расчет на лету) - это для позапросного интерфейса. Архитектурно все три выстраиваются по разному.

источник

11:48пожаловаться #17

VS

Vladislav 👻 Shishkov... in Moscow Spark

Лев Рагулин

Имеется в виду предосталение данных через некое API. При этом наличие витрины не исключается. Это немного другой паттерн доступа к данным. Для DWH специфично витрина + BI. витрина + сервис - это другой паттерн. И третий паттерн вообще без витрины (расчет на лету) - это для позапросного интерфейса. Архитектурно все три выстраиваются по разному.

Ну мне кажется сервисы именно как DWH не нужны в большинстве своем, они скорее нужны, когда на основе данных из DWH что-нибудь идет в бек/фронт, например, ML задачи

источник

12:25пожаловаться #18

DZ

Dmitry Zuev in Moscow Spark

sticker.webp

(31.95 Кб)

источник

12:26пожаловаться #19

DG

Denis Gabaydulin in Moscow Spark

Eldar Nezametdinov

Доброе утро.
Проблема. Есть джоин на двух датаферймах, но один из них со skew.
Как правильно "посолить" ключ, чтобы вычисления были равномерно при джионе?
Или как генерируется правильный "хэш", который будет и для "больших" ключей давай нормальное число партиций и для "малых" ключей тоже? В общем вопросы ...🤷‍♀️

Ну тут много вариантов. Какой выбрать, зависит от типа ключа, кол-ва данных и запроса. Иногда даже не надо делать соль, а просто разбить на два запроса: первый без skew ключа, второй с ключом (только для этого ключа), и потом объединить результаты. Если данных не слишком много, то оно может сконвертится в map side join (он же broadcast hash join).

Еще вариант, с заменой ключа на случайное число, которое находится вне множества других ключей, но имеет тот же тип. Хорошо работает, с null. Допустим у вас есть long user_id (который всегда > 0), но который может быть null. И нулей 20%. Тогда можно просто заменить null на случайное отрицательное число, а потом преобразовать обратно в null, в конце.

Ну и варианты с репликацией.
Вот тут преза, в которой это хорошо разжевано.
https://www.slideshare.net/databricks/smart-join-algorithms-for-fighting-skew-at-scale

www.slideshare.net

Smart Join Algorithms for Fighting Skew at Scale

Consumer apps like Yelp generate log data at huge scale, and often this is distributed according to a power law, where a small number of users, businesses, loc…

источник

12:36пожаловаться #20