может тут кто сталкивался с проблемой spark submit
имеется собранная версия спарка на хдфс (в компании используется много версий, переезжаем плавно, поэтому в работе от 2.1.x до 2.4.x)
в параметрах указываем что нужно использовать её
./bin/spark-submit --class org.apache.spark.examples.SparkPi --master yarn --deploy-mode cluster --executor-memory 20G --num-executors 5 --conf spark.yarn.jars=hdfs\://nameservice1/user/spark/spark_3.0.1.0_2.12/spark_assembly.jar /tmp/spark-3.0.1-bin-hadoop3.2/examples/jars/spark-examples_2.12-3.0.1.jar 1000
всё хорошо работает для разных версий в пределах второй ветки
а вот попытка отправить из предустановленного на хосты 2.4 спарка третий спарк на выполнение натыкается на то что драйвер стартует как положено
НО на воркерах пустые директории (локализация jar и других файлов не проходит)
ну и соответсвенно ошибка
Error: Could not find or load main class org.apache.spark.executor.YarnCoarseGrainedExecutorBackend
(логично, так как никаких jar в класпасе екзекуторов нету)
ответ найден:https://issues.apache.org/jira/browse/SPARK-25689Distributed cache configs are sent separately to the AM.Because of the delayed initialization of the cached resources in the AM, it
became easier to write the cache config to a separate properties file instead
of bundling it with the rest of the Spark config. This also avoids having
to modify the SparkConf to hide things from the UI.
теперь файлы которые нужно раскидывать по машинкам в отдельном конфиг файле идут
поэтому использовать spark-submit между кроссвервиями нельзя,
только того спарка сабмитить в поскавке какой версии он идёт