Size: a a a

2020 August 18

K

KrivdaTheTriewe in Moscow Spark
источник

K

KrivdaTheTriewe in Moscow Spark
вообще будет
источник

K

KrivdaTheTriewe in Moscow Spark
источник

K

KrivdaTheTriewe in Moscow Spark
ток не примут
источник
2020 August 21

ПБ

Повелитель Бури... in Moscow Spark
Доброе утро коллеги. Неделю мучаюсь помогите пожалуйста. Есть датафрейм с 2 полями x,y. Нужно вернуть результат для вебсервиса. Пробовал и show tojson и show collect.println. не парситься. Есть идеи как правильно отдать данные?может есть show csv?
источник

PK

Pavel Klemenkov in Moscow Spark
Я не понял, зачем тебе вообще show? Делай collect и сериализуй любой либой
источник

PK

Pavel Klemenkov in Moscow Spark
Show возвращает строку для pretty print. Она невалидная
источник

PK

Pavel Klemenkov in Moscow Spark
Хо-хо, дата сатанисты, смотрите, что нашел https://github.com/joblib/joblib-spark
источник

AK

Andrew Konstantinov in Moscow Spark
Всем привет !кто-нибудь сталикивался с такой ошибкой
An error occurred while calling o271.showString.
: org.apache.spark.SparkException: Job aborted due to stage failure:
Aborting TaskSet 0.0 because task 0 (partition 0)
cannot run anywhere due to node and executor blacklist.
Most recent failure:
Lost task 0.1 in stage 0.0 (TID 1, z14-1779-node1.vesta.ru, executor 2): java.io.FileNotFoundException: File does not exist: hdfs://z14-1779-node1.vesta.ru:8020/data/data_hub/ilog/xxx/op_year=2020/op_month=7/op_day=17/part-00001-3a39ba60-4beb-4480-ae56-2bbd271efb2d.c000.snappy.orc
It is possible the underlying files have been updated. You can explicitly invalidate the cache in Spark by running 'REFRESH TABLE tableName' command in SQL or by recreating the Dataset/DataFrame involved.
.refresh table не помог, юзаем pyspark 2.4
источник

AS

Andrey Smirnov in Moscow Spark
Andrew Konstantinov
Всем привет !кто-нибудь сталикивался с такой ошибкой
An error occurred while calling o271.showString.
: org.apache.spark.SparkException: Job aborted due to stage failure:
Aborting TaskSet 0.0 because task 0 (partition 0)
cannot run anywhere due to node and executor blacklist.
Most recent failure:
Lost task 0.1 in stage 0.0 (TID 1, z14-1779-node1.vesta.ru, executor 2): java.io.FileNotFoundException: File does not exist: hdfs://z14-1779-node1.vesta.ru:8020/data/data_hub/ilog/xxx/op_year=2020/op_month=7/op_day=17/part-00001-3a39ba60-4beb-4480-ae56-2bbd271efb2d.c000.snappy.orc
It is possible the underlying files have been updated. You can explicitly invalidate the cache in Spark by running 'REFRESH TABLE tableName' command in SQL or by recreating the Dataset/DataFrame involved.
.refresh table не помог, юзаем pyspark 2.4
посмотрите, файлик то там есть или нету
источник

AK

Andrew Konstantinov in Moscow Spark
Файла нет
источник

AS

Andrey Smirnov in Moscow Spark
Andrew Konstantinov
Файла нет
ну тогда как советуют recreating the Dataset/DataFrame involved.
источник

D

Dima in Moscow Spark
Привет, кто-то сталкивался с проблемой на HDFS(cloudera), есть 2-5 Спарк аппликешинов которые пишут в одну и туже папку  параллельно 1 фали с 1 строчкой(APPEND MODE). Ну и проблема собственно с FileOutputCommiter он вытерает другие джобы из _temporary/...
источник

R

Roman in Moscow Spark
Тут уже обсуждалась эта проблема, пишите в разные папки
источник

D

Dima in Moscow Spark
Я не нашел
источник

GP

Grigory Pomadchin in Moscow Spark
Roman
Тут уже обсуждалась эта проблема, пишите в разные папки
какая токсичность ну вы что
источник

PK

Pavel Klemenkov in Moscow Spark
Лол
источник

GP

Grigory Pomadchin in Moscow Spark
лол
источник

GP

Grigory Pomadchin in Moscow Spark
)))
источник

R

Roman in Moscow Spark
Dima
Я не нашел
Без претензий, надеюсь я вас не ранил столь коротким ответом без смайликов :)
источник