И кстати, переехав местами на DataFrames (я имею ввиду к версии 2.4.4. разрабы переписали часть алгоритмов с RDD на dataframes в кишках ML, который был оберткой над MLlib до 2.3 более чем полностью ) мы выиграли разве что сниженный трафик через сеть (что прекрасно), но не ускорились в 1000 раз, т.к. разгуляться Catalyst негде. Я только об этом и больше ни о чем.