Size: a a a

2020 September 22

DZ

Dmitry Zuev in Moscow Spark
Дф это вот совсем не материализованное что-то
источник

А

Алексей in Moscow Spark
нельзя будет заменить вызов внутри udf:
spark.sql("select * from hive where id = ?")
на:
val df = spark.sql("select * from hive").persist()
udf(df)
df.filter("id"===1)
?
источник

А

Алексей in Moscow Spark
или df нельзя передавать параметром?
источник

DZ

Dmitry Zuev in Moscow Spark
Алексей
или df нельзя передавать параметром?
Ты придумал джоин
источник

А

Алексей in Moscow Spark
Dmitry Zuev
Ты придумал джоин
ну человек пишет, что не может переделать удф в полной мере, конечно лучше было бы джойн
источник

А

Алексей in Moscow Spark
но, чтобы не дергать хайв отдельными запросами и не плодить подключения, которые медленные
источник

DZ

Dmitry Zuev in Moscow Spark
Алексей
но, чтобы не дергать хайв отдельными запросами и не плодить подключения, которые медленные
Чтобы не плодить, надо сделать как я написал выше
источник

R

Roman in Moscow Spark
Dmitry Zuev
Это либо mapPartition
Я же правильно понял, что предлагается в map функции поднять новую спарксессию на экзекьюторе и через нее уже шухер делать в udf? (интереса ради)
источник

DZ

Dmitry Zuev in Moscow Spark
Roman
Я же правильно понял, что предлагается в map функции поднять новую спарксессию на экзекьюторе и через нее уже шухер делать в udf? (интереса ради)
Нет конечно
источник

PK

Pavel Klemenkov in Moscow Spark
Roman
Я же правильно понял, что предлагается в map функции поднять новую спарксессию на экзекьюторе и через нее уже шухер делать в udf? (интереса ради)
Сессия - это синглтон
источник

K

KrivdaTheTriewe in Moscow Spark
Pavel Klemenkov
Сессия - это синглтон
источник

GP

Grigory Pomadchin in Moscow Spark
Roman
Я же правильно понял, что предлагается в map функции поднять новую спарксессию на экзекьюторе и через нее уже шухер делать в udf? (интереса ради)
не надо так делать ток; оно и не сработает и не стоит
источник
2020 September 23

PK

Pavel Klemenkov in Moscow Spark
А, это контекст синглтон, соррян
источник

ИК

Иван Калининский... in Moscow Spark
Всем привет!

Поясните такую ситуацию: spark 2.2 записывает датафрейм в паркет в HDFS с партиционирование по одному из полей.

Затем это же приложение начинает обрабатывать записанный датафрейм по партициям, читая каждую отдельно. Но иногда (не всегда) падает с ошибкой, потому что через некоторое время не может найти файл. Файлы в партициях есть, но UUID в их названиях не такой, как spark ожидает. Время создания файлов - намного позже, чем они были записаны изначально, по есть, в логе запись об окончании первого этапа в 5:00, файл записан в 6:00,а падение произошло в 6:30.

После перезапуска все норм, воспроизвести ошибку под контролем не удаётся.

Возможно ли, что UUID был изменен самим спарком в том же приложении? И как это предотвратить?
источник
2020 September 25

PK

Pavel Klemenkov in Moscow Spark
источник

С

Сюткин in Moscow Spark
Done
источник

PK

Pavel Klemenkov in Moscow Spark
Друзья, мне начали приходить письма про ссылку на участие. Ссылу на зум для первых 100 регистраций, ссылку на YouTube-трансляцию и ссылку на spatial chat вышлю во вторник или среду
источник

С

Сюткин in Moscow Spark
Pavel Klemenkov
Друзья, мне начали приходить письма про ссылку на участие. Ссылу на зум для первых 100 регистраций, ссылку на YouTube-трансляцию и ссылку на spatial chat вышлю во вторник или среду
Топ10 первых зареганных опубликуешь?)
источник

PK

Pavel Klemenkov in Moscow Spark
Сюткин
Топ10 первых зареганных опубликуешь?)
Нет канеш, там звёзды шоу бизнеса встречаются )
источник

С

Сюткин in Moscow Spark
источник