Size: a a a

2020 June 23

PK

Pavel Klemenkov in Moscow Spark
Alexey Zinoviev
@pklemenkov вот интересно, откуда берутся пара порядков, только из параллелизация жи, а в чем она там?
Оттуда же откуда берётся пара порядков cpu vs GPU
источник

NN

No Name in Moscow Spark
Pavel Klemenkov
До тех пор пока данные не покидают GPU, ты получаешь ускорение в пару порядков. Понятно, что узкое место - это шаффл, но грамотное партиционирование и infiniband творят чудеса
Infiniband?
источник

AZ

Alexey Zinoviev in Moscow Spark
На чем олап куб развертываете, кстати? В памяти лежит, или кладёте на диск срезы?
источник

PK

Pavel Klemenkov in Moscow Spark
Сравни ширину 16 линий pci-express 4 и hbm2
источник

AZ

Alexey Zinoviev in Moscow Spark
Pavel Klemenkov
Сравни ширину 16 линий pci-express 4 и hbm2
Хм, я думал, что там другое ускорили, но это тоже хорошо
источник

AZ

Alexey Zinoviev in Moscow Spark
А будет ли доклад про gpu на будущем саммите, если нет, то жаль
источник

PK

Pavel Klemenkov in Moscow Spark
Alexey Zinoviev
А будет ли доклад про gpu на будущем саммите, если нет, то жаль
Будет
источник

PK

Pavel Klemenkov in Moscow Spark
Собсно под саммит и релизили )
источник

AS

Andrey Smirnov in Moscow Spark
Alexey Zinoviev
Дак, матрицы только в ml и то только в небольшой подгруппы алгоритмов, вроде рекомендаций, хотя вроде бы разложение матриц не шибко ускоряется на gpu
а как же регрессия?
источник

PK

Pavel Klemenkov in Moscow Spark
Не-не, суть Spark GPU в ускорении etl
источник

ЕГ

Евгений Глотов... in Moscow Spark
Интересно, можно ли ускорить джойн с помощью гпу🤔
источник
2020 June 24

AS

Andrey Smirnov in Moscow Spark
Евгений Глотов
Интересно, можно ли ускорить джойн с помощью гпу🤔
источник

A

Arseniy in Moscow Spark
есть ли чат для нубских вопросов и/или Геоспарка, или тут тоже ок спрашивать?
источник

IV

Ilya Vanin in Moscow Spark
Arseniy
есть ли чат для нубских вопросов и/или Геоспарка, или тут тоже ок спрашивать?
Задавай
источник

A

Arseniy in Moscow Spark
Ilya Vanin
Задавай
есть ли какие-то стандартные приёмы справляться с долго отбегающими последними редьюсерами?
источник

IV

Ilya Vanin in Moscow Spark
Перепартицировать данные
источник

IV

Ilya Vanin in Moscow Spark
repartition (num_partitions, col)
источник

NN

No Name in Moscow Spark
Arseniy
есть ли какие-то стандартные приёмы справляться с долго отбегающими последними редьюсерами?
Salting
источник

A

Arseniy in Moscow Spark
Ilya Vanin
repartition (num_partitions, col)
я правильно понимаю, что нужно выбирать колонку с приблизительно равными количествами повторяющихся уникальных значений, а не указывать колонку приведёт к случайному партицированию?
источник

ЕГ

Евгений Глотов... in Moscow Spark
Arseniy
я правильно понимаю, что нужно выбирать колонку с приблизительно равными количествами повторяющихся уникальных значений, а не указывать колонку приведёт к случайному партицированию?
Не указывать колонку ведёт к RoundRobin Partitioning
источник