Телеграмм чат группы moscowspark страница 686

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Moscow Spark

1085 membersпожаловаться на группу

2021 May 29

GP

Grigory Pomadchin in Moscow Spark

ну наверн кликхаус ‘быстрее’; но чёт совершенно не ясно что у тебя за данные и что ты делаешь. Могу посоветовать постгрес, он еще ‘быстрее’

источник

13:17пожаловаться #1

GP

Grigory Pomadchin in Moscow Spark

^ тут наверное не кавычки а курсивом слово быстрее

источник

13:18пожаловаться #2

ПФ

Паша Финкельштейн... in Moscow Spark

Это всё какие-то полумеры. Ignite!

источник

13:22пожаловаться #3

ПФ

Паша Финкельштейн... in Moscow Spark

Но я вот чего не понимаю: если у нас есть регулярная задача группировки по этим трём колонкам - то почему по ним не партиционировать?

источник

13:23пожаловаться #4

ПФ

Паша Финкельштейн... in Moscow Spark

Ну компактить иногда для скорости

источник

13:23пожаловаться #5

AS

Anton Solomonov in Moscow Spark

Нее, это не регулярная задача. Просто разовый запрос, но удивляет что так долго работает

источник

13:30пожаловаться #6

ПФ

Паша Финкельштейн... in Moscow Spark

Эдхок аналитика сложно

источник

13:35пожаловаться #7

PZ

Petr Zhitnikov in Moscow Spark

Почему? Там же в постановке задачи просто count?

Ну то есть ты на каждой локально группируешь и потом просто суммируешь счетчики.
Вроде в таких кейсах шаффл околонулевой должен быть. Если, конечно, эта группировка на выходе даёт не очень много строк.

источник

21:24пожаловаться #8

PZ

Petr Zhitnikov in Moscow Spark

И если данные лежат там же где и выполняются вычисления, да :)

источник

21:27пожаловаться #9

ПФ

Паша Финкельштейн... in Moscow Spark

А вот об этом я не подумал, да, ты прав

источник

23:01пожаловаться #10

2021 May 30

NN

No Name in Moscow Spark

Вот логика подсказывает, что вроде как это было бы ожидаемым поведением, но практика выглядит так, как будто поначалу групбай, независимо от агрегатной функции, делает шафл партишн исходя из spark.sql.shuffle.partition. А вот окно, например, реализованное уже через partitionBy, раскидывает исходя из количества уникальных ключей, и это может оказаться быстрее. Вообще, хз, надо опять, похоже, лезть в исходники и освежить знания по механизмам шаффла.

источник

03:13пожаловаться #11

PZ

Petr Zhitnikov in Moscow Spark

Да, но вопрос что именно шаффл будет раскидывать. Ну то есть в случае count – там просто счетчиков достаточно, а в случае countDistinct – уже set'ы уникальных значений, и, соответственно объем шаффла в этом случае вырастает многократно.

Но это я все так, по памяти о том как оно вроде себя ведёт по внешним признакам (объем шаффла при countDistinct в разы / на порядки больше), а не исходя из свежепрочитанных исходников спарка, так что могу и ошибаться.

источник

03:25пожаловаться #12

ЕГ

Евгений Глотов... in Moscow Spark

Давай с самого начала, у тебя hive on spark или spark, который работает на табличке из hive metastore?

источник

03:25пожаловаться #13

ЕГ

Евгений Глотов... in Moscow Spark

Или спарк с третьим хайвом с ллап коннектором

источник

03:27пожаловаться #14

ЕГ

Евгений Глотов... in Moscow Spark

источник

03:27пожаловаться #15

ЕГ

Евгений Глотов... in Moscow Spark

Если это спарк, то какой версии и какие настройки на количество экзекуторов

источник

03:29пожаловаться #16

ЕГ

Евгений Глотов... in Moscow Spark

Если ты работаешь не один - запускал ли ты джоб в субботу или в среду днём, когда на кластере например не протолкнуться, и тебе максимум что выдали это те самые 4 ядра

источник

03:30пожаловаться #17

ЕГ

Евгений Глотов... in Moscow Spark

300 лямов записей на 4 ядрах за 3 часа - это очень хороший результат

источник

03:31пожаловаться #18

ЕГ

Евгений Глотов... in Moscow Spark

За 200 ядрах - очень плохой🤷‍♂

источник

03:31пожаловаться #19

GP

Grigory Pomadchin in Moscow Spark

на 4 ядрах кластера из 200 ядер

источник

04:55пожаловаться #20