Nazar Niyazov
А где примерно проходит граница размера, когда кластер становится быстрее?
У меня была задача на спарке - нечёткое сопоставлени по двум дабл координатам, по сути knn, датасеты были размера 40 гигов и 16 гигов, несжатый csv. Обрабатывал спарком на скале
Я поднимал учебный кластер в азуре с разным числом ядер, и сравнивал с локальным своим компом на 8 виртуал коров. Вот кластер начал выигрывать по времени, когда там стало 16 физических коров