Size: a a a

2020 August 24

VM

Vladimir Maximov in Moscow Spark
Dima
Привет, кто-то сталкивался с проблемой на HDFS(cloudera), есть 2-5 Спарк аппликешинов которые пишут в одну и туже папку  параллельно 1 фали с 1 строчкой(APPEND MODE). Ну и проблема собственно с FileOutputCommiter он вытерает другие джобы из _temporary/...
Привет, попробуй эти значения конфигурации для fileoutputcommiter’a:

spark.hadoop.mapreduce.fileoutputcommitter.algorithm.version=2


spark.hadoop.mapreduce.fileoutputcommitter.cleanup-failures.ignored=true


spark.hadoop.mapreduce.fileoutputcommitter.marksuccessfuljobs=false
источник

D

Dima in Moscow Spark
Vladimir Maximov
Привет, попробуй эти значения конфигурации для fileoutputcommiter’a:

spark.hadoop.mapreduce.fileoutputcommitter.algorithm.version=2


spark.hadoop.mapreduce.fileoutputcommitter.cleanup-failures.ignored=true


spark.hadoop.mapreduce.fileoutputcommitter.marksuccessfuljobs=false
Спасибо Владимир за ответ, но с параметрами я наигрался- не работает для HDFS.
Эту проблему можно решить:
1. Extends OutputCommiter (сделать свой) https://www.outbrain.com/techblog/2020/03/how-you-can-set-many-spark-jobs-write-to-the-same-path/

2. Использовать distributed lock(пример curator, delta lake)

3. Ну или писать джобы в разные патриции.
источник
2020 August 26

ПБ

Повелитель Бури... in Moscow Spark
Добрый! Скажите пожалуйста а как можно рефрешнуть  после выполнения скрипта ?
Spark context available as 'sc'                                                                                                                                                    
Spark session available as 'spark'.

а то данные обновились, а спарк старые результаты возвращает
источник

PK

Pavel Klemenkov in Moscow Spark
Не понял, что рефрешнуть?
источник

ПБ

Повелитель Бури... in Moscow Spark
Pavel Klemenkov
Не понял, что рефрешнуть?
Spark contex и Spark session
источник

GP

Grigory Pomadchin in Moscow Spark
Повелитель Бури
Spark contex и Spark session
это сессиии
источник

PK

Pavel Klemenkov in Moscow Spark
Повелитель Бури
Spark contex и Spark session
Их можно только пересоздать. А зачем рефрешить?
источник

DK

Denis Kornilov in Moscow Spark
Возможно речь идет про:
REFRESH [TABLE] tableIdentifier

?
источник

ПБ

Повелитель Бури... in Moscow Spark
нет )
я запускаю скрипт в livy
spark.sql("select  * from default.t").df_07.groupBy("d").agg(count("*").as("cnt"))
и следующей строкой нужно видимо пересоздать
чтобы следующий запрос отображал новые данные
источник

ПБ

Повелитель Бури... in Moscow Spark
если через spark-shall запускаю, все отлично работает, результат обновляется
источник

AK

Andrew Konstantinov in Moscow Spark
Повелитель Бури
Добрый! Скажите пожалуйста а как можно рефрешнуть  после выполнения скрипта ?
Spark context available as 'sc'                                                                                                                                                    
Spark session available as 'spark'.

а то данные обновились, а спарк старые результаты возвращает
добрый!можно refresh catalog или refresh table,если ты не пересоздавал какую-нибудь spark_metadata
источник
2020 August 27

ПБ

Повелитель Бури... in Moscow Spark
Andrew Konstantinov
добрый!можно refresh catalog или refresh table,если ты не пересоздавал какую-нибудь spark_metadata
Разве у скарка есть каталог или таблицы? Как  у hive?
источник

АЖ

Андрей Жуков... in Moscow Spark
Повелитель Бури
Разве у скарка есть каталог или таблицы? Как  у hive?
Ты ж сам sql используешь в скрипте :)
источник

ПБ

Повелитель Бури... in Moscow Spark
Андрей Жуков
Ты ж сам sql используешь в скрипте :)
если я правильно понял документацию, spark sql создает себе какую то временную абстрактную таблицу : dataframe
источник

АЖ

Андрей Жуков... in Moscow Spark
Повелитель Бури
если я правильно понял документацию, spark sql создает себе какую то временную абстрактную таблицу : dataframe
Советую почитать внимательно.  Спарк умеет использовать даже внешний метастор.
источник

AN

Andrey N in Moscow Spark
ребята, есть ли возможность настроить ярн так, что бы он убивал сессии которые простаивают например 8 часов?
источник

ЕГ

Евгений Глотов... in Moscow Spark
Andrey N
ребята, есть ли возможность настроить ярн так, что бы он убивал сессии которые простаивают например 8 часов?
Понятие "простаивают" очень неоднозначное для спарк-сессий
источник

ЕГ

Евгений Глотов... in Moscow Spark
Ну и помимо них есть дофига других ярн-приложений, для которых тоже непонятно, работают они или нет
источник

ЕГ

Евгений Глотов... in Moscow Spark
Но можно написать несложный скрипт, который парсит url appmaster в ярне, потом парсит spark UI и получает время запуска последнего джоба, например
источник

ЕГ

Евгений Глотов... in Moscow Spark
Если оно больше 8 часов, то просто ярн аппликейшен -килл
источник