Size: a a a

2021 January 22

ПФ

Паша Финкельштейн... in Moscow Spark
Точно ли на нодах доступно столько памяти сколько экзекьюторы думают что там есть?
источник

GP

Grigory Pomadchin in Moscow Spark
Вячеслав Колосков
а что это?
spark.executor.memoryOverhead в спарк-сабмите задаю
а причем тут будет оверхед если памяти не хватило ехекуторам
источник

GP

Grigory Pomadchin in Moscow Spark
сделай больше тонких ехекуторов и посмотри скок надо минимум каждой
источник
2021 January 24

MK

Mikhail Kuznetsov in Moscow Spark
Добрый вечер.
Можно ли задать условие в filter/where строковой переменной?
Т.е. вместо
df.filter($"some_col" === "some_value")
написать
val str = s"???"
df.filter(str)
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Mikhail Kuznetsov
Добрый вечер.
Можно ли задать условие в filter/where строковой переменной?
Т.е. вместо
df.filter($"some_col" === "some_value")
написать
val str = s"???"
df.filter(str)
lit("constant")
источник

DZ

Dmitry Zuev in Moscow Spark
Эм, зачем.
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Dmitry Zuev
Эм, зачем.
Ну когда нам надо литерал это кажется самым правильным способом, нет? Так можно и чиселки и всё такое
источник

t

tenKe in Moscow Spark
Mikhail Kuznetsov
Добрый вечер.
Можно ли задать условие в filter/where строковой переменной?
Т.е. вместо
df.filter($"some_col" === "some_value")
написать
val str = s"???"
df.filter(str)
можно, если в str будет выражение типа foo = ‘bar’
источник

MK

Mikhail Kuznetsov in Moscow Spark
tenKe
можно, если в str будет выражение типа foo = ‘bar’
val str = s"param=`1`"
Exception in thread "main" org.apache.spark.sql.AnalysisException: cannot resolve '1'
источник

MK

Mikhail Kuznetsov in Moscow Spark
кавычки не те) получилось, спасибо
источник
2021 January 25

A

Alex in Moscow Spark
может тут кто сталкивался с проблемой spark submit

имеется собранная версия спарка на хдфс (в компании используется много версий, переезжаем плавно, поэтому в работе от 2.1.x до 2.4.x)
в параметрах указываем что нужно использовать её

./bin/spark-submit --class org.apache.spark.examples.SparkPi --master yarn --deploy-mode cluster --executor-memory 20G --num-executors 5 --conf spark.yarn.jars=hdfs\://nameservice1/user/spark/spark_3.0.1.0_2.12/spark_assembly.jar /tmp/spark-3.0.1-bin-hadoop3.2/examples/jars/spark-examples_2.12-3.0.1.jar 1000

всё хорошо работает для разных версий в пределах второй ветки
а вот попытка отправить из предустановленного на хосты 2.4 спарка третий спарк на выполнение натыкается на то что драйвер стартует как положено
НО на воркерах пустые директории (локализация jar и других файлов не проходит)

ну и соответсвенно ошибка
Error: Could not find or load main class org.apache.spark.executor.YarnCoarseGrainedExecutorBackend

(логично, так как никаких jar в класпасе екзекуторов нету)


ответ найден:
https://issues.apache.org/jira/browse/SPARK-25689

Distributed cache configs are sent separately to the AM.

Because of the delayed initialization of the cached resources in the AM, it
became easier to write the cache config to a separate properties file instead
of bundling it with the rest of the Spark config. This also avoids having
to modify the SparkConf to hide things from the UI.

теперь файлы которые нужно раскидывать по машинкам в отдельном конфиг файле идут
поэтому использовать spark-submit между кроссвервиями нельзя,
только того спарка сабмитить в поскавке какой версии он идёт
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Продолжение истории с датасетами и цеппелином: зависает только на линуксе 🤣
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Всё, разгадал. Тем, кто следил за моими приключениями, вот ишшу в цеппелине: https://issues.apache.org/jira/browse/ZEPPELIN-5222
источник

ПФ

Паша Финкельштейн... in Moscow Spark
И оказывается, что если унести определения классов в отдельный параграф — то всё работает на отличненько
источник

GP

Grigory Pomadchin in Moscow Spark
Паша Финкельштейн
Всё, разгадал. Тем, кто следил за моими приключениями, вот ишшу в цеппелине: https://issues.apache.org/jira/browse/ZEPPELIN-5222
Треш
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Ну и в итоге это не бага цеппелина
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Заходим в спарк-шелл, делаем там :paste, вставляем наш кусок кода и спарк зависает
источник

EC

Eugene Chipizubov in Moscow Spark
источник

EC

Eugene Chipizubov in Moscow Spark
У меня очередное открытие
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Eugene Chipizubov
КАК
источник