Телеграмм чат группы moscowspark страница 523

Добрый вечер.
Можно ли задать условие в filter/where строковой переменной?
Т.е. вместо
df.filter($"some_col" === "some_value")
написать
val str = s"???"
df.filter(str)

источник

21:34пожаловаться #4

ПФ

Паша Финкельштейн... in Moscow Spark

Mikhail Kuznetsov

lit("constant")

источник

21:36пожаловаться #5

Dmitry Zuev in Moscow Spark

Паша Финкельштейн

lit("constant")

Эм, зачем.

источник

21:37пожаловаться #6

ПФ

Паша Финкельштейн... in Moscow Spark

Dmitry Zuev

Эм, зачем.

Ну когда нам надо литерал это кажется самым правильным способом, нет? Так можно и чиселки и всё такое

источник

21:38пожаловаться #7

tenKe in Moscow Spark

Mikhail Kuznetsov

можно, если в str будет выражение типа foo = ‘bar’

источник

21:39пожаловаться #8

Mikhail Kuznetsov in Moscow Spark

tenKe

можно, если в str будет выражение типа foo = ‘bar’

val str = s"param=`1`"
Exception in thread "main" org.apache.spark.sql.AnalysisException: cannot resolve '1'

источник

21:49пожаловаться #9

Mikhail Kuznetsov in Moscow Spark

кавычки не те) получилось, спасибо

источник

21:51пожаловаться #10

2021 January 25

Alex in Moscow Spark

может тут кто сталкивался с проблемой spark submit

имеется собранная версия спарка на хдфс (в компании используется много версий, переезжаем плавно, поэтому в работе от 2.1.x до 2.4.x)
в параметрах указываем что нужно использовать её

./bin/spark-submit --class org.apache.spark.examples.SparkPi --master yarn --deploy-mode cluster --executor-memory 20G --num-executors 5 --conf spark.yarn.jars=hdfs\://nameservice1/user/spark/spark_3.0.1.0_2.12/spark_assembly.jar /tmp/spark-3.0.1-bin-hadoop3.2/examples/jars/spark-examples_2.12-3.0.1.jar 1000

всё хорошо работает для разных версий в пределах второй ветки
а вот попытка отправить из предустановленного на хосты 2.4 спарка третий спарк на выполнение натыкается на то что драйвер стартует как положено
НО на воркерах пустые директории (локализация jar и других файлов не проходит)

ну и соответсвенно ошибка
Error: Could not find or load main class org.apache.spark.executor.YarnCoarseGrainedExecutorBackend

(логично, так как никаких jar в класпасе екзекуторов нету)

ответ найден:
https://issues.apache.org/jira/browse/SPARK-25689

Distributed cache configs are sent separately to the AM.

Because of the delayed initialization of the cached resources in the AM, it
became easier to write the cache config to a separate properties file instead
of bundling it with the rest of the Spark config. This also avoids having
to modify the SparkConf to hide things from the UI.

теперь файлы которые нужно раскидывать по машинкам в отдельном конфиг файле идут
поэтому использовать spark-submit между кроссвервиями нельзя,
только того спарка сабмитить в поскавке какой версии он идёт

источник

09:10пожаловаться #11

ПФ

Паша Финкельштейн... in Moscow Spark

Продолжение истории с датасетами и цеппелином: зависает только на линуксе 🤣

источник

12:35пожаловаться #12

ПФ

Паша Финкельштейн... in Moscow Spark

Всё, разгадал. Тем, кто следил за моими приключениями, вот ишшу в цеппелине: https://issues.apache.org/jira/browse/ZEPPELIN-5222

источник

13:56пожаловаться #13