Телеграмм чат группы moscowspark страница 427

Доброе утро коллеги. Неделю мучаюсь помогите пожалуйста. Есть датафрейм с 2 полями x,y. Нужно вернуть результат для вебсервиса. Пробовал и show tojson и show collect.println. не парситься. Есть идеи как правильно отдать данные?может есть show csv?

источник

09:19пожаловаться #5

Pavel Klemenkov in Moscow Spark

Я не понял, зачем тебе вообще show? Делай collect и сериализуй любой либой

источник

09:32пожаловаться #6

Pavel Klemenkov in Moscow Spark

Show возвращает строку для pretty print. Она невалидная

источник

09:33пожаловаться #7

Pavel Klemenkov in Moscow Spark

Хо-хо, дата сатанисты, смотрите, что нашел https://github.com/joblib/joblib-spark

GitHub

joblib/joblib-spark

Joblib Apache Spark Backend. Contribute to joblib/joblib-spark development by creating an account on GitHub.

источник

14:07пожаловаться #8

Andrew Konstantinov in Moscow Spark

Всем привет !кто-нибудь сталикивался с такой ошибкой

An error occurred while calling o271.showString.
: org.apache.spark.SparkException: Job aborted due to stage failure: 
Aborting TaskSet 0.0 because task 0 (partition 0)
cannot run anywhere due to node and executor blacklist.
Most recent failure:
Lost task 0.1 in stage 0.0 (TID 1, z14-1779-node1.vesta.ru, executor 2): java.io.FileNotFoundException: File does not exist: hdfs://z14-1779-node1.vesta.ru:8020/data/data_hub/ilog/xxx/op_year=2020/op_month=7/op_day=17/part-00001-3a39ba60-4beb-4480-ae56-2bbd271efb2d.c000.snappy.orc
It is possible the underlying files have been updated. You can explicitly invalidate the cache in Spark by running 'REFRESH TABLE tableName' command in SQL or by recreating the Dataset/DataFrame involved.

.refresh table не помог, юзаем pyspark 2.4

источник

16:01пожаловаться #9

Andrey Smirnov in Moscow Spark

Andrew Konstantinov

Всем привет !кто-нибудь сталикивался с такой ошибкой

An error occurred while calling o271.showString.
: org.apache.spark.SparkException: Job aborted due to stage failure: 
Aborting TaskSet 0.0 because task 0 (partition 0)
cannot run anywhere due to node and executor blacklist.
Most recent failure:
Lost task 0.1 in stage 0.0 (TID 1, z14-1779-node1.vesta.ru, executor 2): java.io.FileNotFoundException: File does not exist: hdfs://z14-1779-node1.vesta.ru:8020/data/data_hub/ilog/xxx/op_year=2020/op_month=7/op_day=17/part-00001-3a39ba60-4beb-4480-ae56-2bbd271efb2d.c000.snappy.orc
It is possible the underlying files have been updated. You can explicitly invalidate the cache in Spark by running 'REFRESH TABLE tableName' command in SQL or by recreating the Dataset/DataFrame involved.

.refresh table не помог, юзаем pyspark 2.4

посмотрите, файлик то там есть или нету

источник

16:22пожаловаться #10

Andrew Konstantinov in Moscow Spark

Файла нет

источник

16:22пожаловаться #11

Andrey Smirnov in Moscow Spark

Andrew Konstantinov

Файла нет

ну тогда как советуют recreating the Dataset/DataFrame involved.

источник

16:31пожаловаться #12

Dima in Moscow Spark

Привет, кто-то сталкивался с проблемой на HDFS(cloudera), есть 2-5 Спарк аппликешинов которые пишут в одну и туже папку параллельно 1 фали с 1 строчкой(APPEND MODE). Ну и проблема собственно с FileOutputCommiter он вытерает другие джобы из _temporary/...

источник

18:18пожаловаться #13

Roman in Moscow Spark

Тут уже обсуждалась эта проблема, пишите в разные папки

источник

19:08пожаловаться #14

Dima in Moscow Spark

Я не нашел

источник

19:45пожаловаться #15

Grigory Pomadchin in Moscow Spark

Roman