Наш data engineer говорит, что это очень сложно и не хочет делать. А версия у нас 1.6.0, это боль. Нужна нормальная библиотека mllib и ml.
Извините, добавлю тут немного, вдруг пригодится. Наверно, можно ещё на такой вариант посмотреть: берёте новый дистрибутив спарка и кладете на edge node, внутри описываете конфиг spark-defaults.conf и используете там spark.yarn.jars или archive, указывая путь на hdfs, куда кладете директорию jars из дистрибутива спарка. Из нового же дистра локально используете уже новый spark-submit. И всё - вы на новых зависимостях. Если хочется ещё красоты, то можно симлинки клаудерные для spark-submit, spark-shell переопределить на новый дистр на edge node.