Телеграмм чат группы moscowspark страница 449

2020 September 22

DZ

Дф это вот совсем не материализованное что-то

А

нельзя будет заменить вызов внутри udf:
spark.sql("select * from hive where id = ?")
на:
val df = spark.sql("select * from hive").persist()
udf(df)
df.filter("id"===1)
?

источник

16:30пожаловаться #2

А

Алексей in Moscow Spark

или df нельзя передавать параметром?

источник

16:32пожаловаться #3

DZ

Dmitry Zuev in Moscow Spark

Алексей

или df нельзя передавать параметром?

Ты придумал джоин

источник

16:33пожаловаться #4

А

Алексей in Moscow Spark

Dmitry Zuev

Ты придумал джоин

ну человек пишет, что не может переделать удф в полной мере, конечно лучше было бы джойн

источник

16:34пожаловаться #5

А

Алексей in Moscow Spark

но, чтобы не дергать хайв отдельными запросами и не плодить подключения, которые медленные

источник

16:34пожаловаться #6

DZ

Dmitry Zuev in Moscow Spark

Алексей

но, чтобы не дергать хайв отдельными запросами и не плодить подключения, которые медленные

Чтобы не плодить, надо сделать как я написал выше

источник

16:34пожаловаться #7

R

Roman in Moscow Spark

Dmitry Zuev

Это либо mapPartition

Я же правильно понял, что предлагается в map функции поднять новую спарксессию на экзекьюторе и через нее уже шухер делать в udf? (интереса ради)

источник

19:09пожаловаться #8

DZ

Dmitry Zuev in Moscow Spark

Roman

Я же правильно понял, что предлагается в map функции поднять новую спарксессию на экзекьюторе и через нее уже шухер делать в udf? (интереса ради)

Нет конечно

источник

20:41пожаловаться #9

PK

Pavel Klemenkov in Moscow Spark

Roman

Я же правильно понял, что предлагается в map функции поднять новую спарксессию на экзекьюторе и через нее уже шухер делать в udf? (интереса ради)

Сессия - это синглтон

источник

20:55пожаловаться #10

K

KrivdaTheTriewe in Moscow Spark

Pavel Klemenkov

Сессия - это синглтон

источник

21:07пожаловаться #11

GP

Grigory Pomadchin in Moscow Spark

Roman

Я же правильно понял, что предлагается в map функции поднять новую спарксессию на экзекьюторе и через нее уже шухер делать в udf? (интереса ради)

не надо так делать ток; оно и не сработает и не стоит

источник

21:10пожаловаться #12

2020 September 23

PK

Pavel Klemenkov in Moscow Spark

KrivdaTheTriewe

А, это контекст синглтон, соррян

источник

06:04пожаловаться #13

ИК

Иван Калининский... in Moscow Spark

Всем привет!

Поясните такую ситуацию: spark 2.2 записывает датафрейм в паркет в HDFS с партиционирование по одному из полей.

Затем это же приложение начинает обрабатывать записанный датафрейм по партициям, читая каждую отдельно. Но иногда (не всегда) падает с ошибкой, потому что через некоторое время не может найти файл. Файлы в партициях есть, но UUID в их названиях не такой, как spark ожидает. Время создания файлов - намного позже, чем они были записаны изначально, по есть, в логе запись об окончании первого этапа в 5:00, файл записан в 6:00,а падение произошло в 6:30.

После перезапуска все норм, воспроизвести ошибку под контролем не удаётся.

Возможно ли, что UUID был изменен самим спарком в том же приложении? И как это предотвратить?

источник

10:51пожаловаться #14

2020 September 25

PK

Pavel Klemenkov in Moscow Spark

Moscow Spark #10 быть! https://moscowspark.timepad.ru/event/1440202/

moscowspark.timepad.ru

Moscow Spark #10 / События на TimePad.ru

Всем привет! Удивительное дело, но с момента прошлого Moscow Spark прошел уже почти год. Я все никак не хотел принимать онлайн-реальность для нашего уютного митапчика, но обстоятельства берут свое. В общем, мы проведем юбилейный Moscow Spark #10 онлайн.

Помимо нового формата, у нас есть еще новиночка  зарубежные спикеры. Так что подключайтесь, слушайте и задавайте вопросы. Первые 100 зарегистрировавшихся получат возможность присоединиться к Zoom, остальных мы с радостью пригласим на YouTube-трансляцию и afterparty в SpatialChat.

источник

15:45пожаловаться #15

С

Сюткин in Moscow Spark

Pavel Klemenkov

Moscow Spark #10 быть! https://moscowspark.timepad.ru/event/1440202/

moscowspark.timepad.ru

Moscow Spark #10 / События на TimePad.ru

Всем привет! Удивительное дело, но с момента прошлого Moscow Spark прошел уже почти год. Я все никак не хотел принимать онлайн-реальность для нашего уютного митапчика, но обстоятельства берут свое. В общем, мы проведем юбилейный Moscow Spark #10 онлайн.

Помимо нового формата, у нас есть еще новиночка  зарубежные спикеры. Так что подключайтесь, слушайте и задавайте вопросы. Первые 100 зарегистрировавшихся получат возможность присоединиться к Zoom, остальных мы с радостью пригласим на YouTube-трансляцию и afterparty в SpatialChat.

Done

источник

15:47пожаловаться #16

PK

Pavel Klemenkov in Moscow Spark

Друзья, мне начали приходить письма про ссылку на участие. Ссылу на зум для первых 100 регистраций, ссылку на YouTube-трансляцию и ссылку на spatial chat вышлю во вторник или среду

источник

17:47пожаловаться #17

С

Сюткин in Moscow Spark

Pavel Klemenkov

Друзья, мне начали приходить письма про ссылку на участие. Ссылу на зум для первых 100 регистраций, ссылку на YouTube-трансляцию и ссылку на spatial chat вышлю во вторник или среду

Топ10 первых зареганных опубликуешь?)

источник

17:48пожаловаться #18

PK

Pavel Klemenkov in Moscow Spark

Сюткин

Топ10 первых зареганных опубликуешь?)

Нет канеш, там звёзды шоу бизнеса встречаются )

источник

17:48пожаловаться #19

С

Сюткин in Moscow Spark

sticker.webp

(36.23 Кб)

источник

17:48пожаловаться #20