Size: a a a

2021 May 29

GP

Grigory Pomadchin in Moscow Spark
ну наверн кликхаус ‘быстрее’; но чёт совершенно не ясно что у тебя за данные и что ты делаешь. Могу посоветовать постгрес, он еще ‘быстрее’
источник

GP

Grigory Pomadchin in Moscow Spark
^ тут наверное не кавычки а курсивом слово быстрее
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Это всё какие-то полумеры. Ignite!
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Но я вот чего не понимаю: если у нас есть регулярная задача группировки по этим трём колонкам - то почему по ним не партиционировать?
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Ну компактить иногда для скорости
источник

AS

Anton Solomonov in Moscow Spark
Нее, это не регулярная задача. Просто разовый запрос, но удивляет что так долго работает
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Эдхок аналитика сложно
источник

PZ

Petr Zhitnikov in Moscow Spark
Почему? Там же в постановке задачи просто count?

Ну то есть ты на каждой локально группируешь и потом просто суммируешь счетчики.
Вроде в таких кейсах шаффл околонулевой должен быть. Если, конечно, эта группировка на выходе даёт не очень много строк.
источник

PZ

Petr Zhitnikov in Moscow Spark
И если данные лежат там же где и выполняются вычисления, да :)
источник

ПФ

Паша Финкельштейн... in Moscow Spark
А вот об этом я не подумал, да, ты прав
источник
2021 May 30

NN

No Name in Moscow Spark
Вот логика подсказывает, что вроде как это было бы ожидаемым поведением, но практика выглядит так, как будто поначалу групбай, независимо от агрегатной функции, делает шафл партишн исходя из spark.sql.shuffle.partition. А вот окно, например, реализованное уже через partitionBy, раскидывает исходя из количества уникальных ключей, и это может оказаться быстрее. Вообще, хз, надо опять, похоже, лезть в исходники и освежить знания по механизмам шаффла.
источник

PZ

Petr Zhitnikov in Moscow Spark
Да, но вопрос что именно шаффл будет раскидывать. Ну то есть в случае count – там просто счетчиков достаточно, а в случае countDistinct – уже set'ы уникальных значений, и, соответственно объем шаффла в этом случае вырастает многократно.

Но это я все так, по памяти о том как оно вроде себя ведёт по внешним признакам (объем шаффла при countDistinct в разы / на порядки больше), а не исходя из свежепрочитанных исходников спарка, так что могу и ошибаться.
источник

ЕГ

Евгений Глотов... in Moscow Spark
Давай с самого начала, у тебя hive on spark или spark, который работает на табличке из hive metastore?
источник

ЕГ

Евгений Глотов... in Moscow Spark
Или спарк с третьим хайвом с ллап коннектором
источник

ЕГ

Евгений Глотов... in Moscow Spark
источник

ЕГ

Евгений Глотов... in Moscow Spark
Если это спарк, то какой версии и какие настройки на количество экзекуторов
источник

ЕГ

Евгений Глотов... in Moscow Spark
Если ты работаешь не один - запускал ли ты джоб в субботу или в среду днём, когда на кластере например не протолкнуться, и тебе максимум что выдали это те самые 4 ядра
источник

ЕГ

Евгений Глотов... in Moscow Spark
300 лямов записей на 4 ядрах за 3 часа - это очень хороший результат
источник

ЕГ

Евгений Глотов... in Moscow Spark
За 200 ядрах - очень плохой🤷‍♂
источник

GP

Grigory Pomadchin in Moscow Spark
на 4 ядрах кластера из 200 ядер
источник