До тех пор пока данные не покидают GPU, ты получаешь ускорение в пару порядков. Понятно, что узкое место - это шаффл, но грамотное партиционирование и infiniband творят чудеса
я правильно понимаю, что нужно выбирать колонку с приблизительно равными количествами повторяющихся уникальных значений, а не указывать колонку приведёт к случайному партицированию?
я правильно понимаю, что нужно выбирать колонку с приблизительно равными количествами повторяющихся уникальных значений, а не указывать колонку приведёт к случайному партицированию?
Не указывать колонку ведёт к RoundRobin Partitioning