Я читал статью про AngelML on Spark и там китайцы с бенчмарками утверждают как раз, что RDD быстрее. Но это не главный мой посыл все же, это детали
Ну в целом, для ML ничего лучше голого MapReduce с хорошей упаковокй перед посылкой по сети нет. Дело в том, что трансформации в ML сложнее чем манипуляции SQL деревом и в целом Catalyst мало что там может соптимизировать, подвинуть, данные в колонке слишком плотные (вектор блин в одной колонке, даже на 1000 фич), чтобы делать клевые штуки для SIMD и прочие Tungsten-примочки