Телеграмм чат группы moscowspark страница 670

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Moscow Spark

1083 membersпожаловаться на группу

2021 May 11

А

Алексей in Moscow Spark

добрый день,
подскажите, в Spark есть возможность сделать функцию с параметром, которую можно было бы использовать как источник в секции from spark sql?
чтото типа LATERAL join в postgres или pipleline table function в oracle
у меня на входе куча таблиц с периодами, которые надо поджойнить, но аналитики знают только sql

источник

11:25пожаловаться #1

ЕГ

Евгений Глотов... in Moscow Spark

Можно замутить регламентный процесс, который делает create view с нужным параметром внутри куска sql)

источник

11:36пожаловаться #2

А

Алексей in Moscow Spark

это подошло бы, если нужны были бы только текущие цены, но нужна еще история

источник

11:47пожаловаться #3

ИК

Иван Калининский... in Moscow Spark

вот это (table LATERAL VIEW OUTER) поможет?
https://stackoverflow.com/questions/52781878/spark-how-to-include-null-rows-in-lateral-view-explode

Spark: How to include null rows in lateral view explode

I have a table as below:
user_id email
u1 e1, e2
u2 null

My goal is to convert this into the following format:
user_id email
u1 e1
u1 e2
u2 null

HIVE sql: select * FROM ...

источник

11:53пожаловаться #4

e

er@essbase.ru in Moscow Spark

хм.. мне кажется что spark_sql позволяет селектить из дата-фрейма

источник

11:54пожаловаться #5

NN

No Name in Moscow Spark

Не, или из хайвовой таблички, или из темповой

источник

11:56пожаловаться #6

e

er@essbase.ru in Moscow Spark

ну да ,
что то вот такое
—
// Register the DataFrame as a global temporary view
df.createGlobalTempView("people")

// Global temporary view is tied to a system preserved database global_temp
spark.sql("SELECT * FROM global_temp.people").show()
—
// Register the DataFrame as a SQL temporary view
df.createOrReplaceTempView("people")

val sqlDF = spark.sql("SELECT * FROM people")
sqlDF.show()
—

источник

11:58пожаловаться #7

ИК

Иван Калининский... in Moscow Spark

А вдруг там нет df? Есть только select * from …

источник

12:02пожаловаться #8

А

Алексей in Moscow Spark

там только результат explode , насколько понял запрос нельзя поместить

источник

12:05пожаловаться #9

ИК

Иван Калининский... in Moscow Spark

А если покрутить, сгруппировать, сделать там collect_list ?

источник

12:07пожаловаться #10

ИК

Иван Калининский... in Moscow Spark

сложна что-то получается, да (

источник

12:07пожаловаться #11

А

Алексей in Moscow Spark

да, там в lateral основные таблицы, думаю все будет работать вечность так.
запрос вида:
select * from calendar c
lateral join (select * from prices p where c.day between p.datefrom and p.dateto)
where c.day = '20210511'

источник

12:10пожаловаться #12

ИК

Иван Калининский... in Moscow Spark

может, попробовать свести к left outer join ?

источник

12:12пожаловаться #13

А

Алексей in Moscow Spark

да, так работает, но будет nested loop и без пуша фильтра

источник

12:13пожаловаться #14

Н

Никита in Moscow Spark

Привет всем, а как вы дебажите функции, которые натравливаете на rdd
Т.е. часть строк выполняется без ошибок, а другие вызывают exception, как распечатать эти строки?

источник

19:03пожаловаться #15

N

Nikita Blagodarnyy in Moscow Spark

Бей датасет на части, смотри на какой части валится. Дихотомия помогает.

источник

19:18пожаловаться #16

AS

Andrey Smirnov in Moscow Spark

Прикрути логи

источник

20:43пожаловаться #17

Н

Никита in Moscow Spark

спасибо, много раз гуглил, щас повезло наткнуться на yarn_logger, который позволяет логгировать с executors

источник

20:44пожаловаться #18

2021 May 13

N

Nikita Blagodarnyy in Moscow Spark

кто-нибудь понимает, какой смысл в такой засолке? ведь он тупо константу добавляет в ключ. вместо (x,y) будет (x,y,z), который также приедет весь на один экзекутор. с чего он лучше раздистрибутится-то?

источник

14:25пожаловаться #19

NN

No Name in Moscow Spark

Так константа же (z) будет из себя представлять рандомное значение, не превышающее количество партиций по умолчанию.

источник

14:28пожаловаться #20