Телеграмм чат группы moscowspark страница 633

Всем доброе утро, подскажите плиз как правильно пробрасывать драйвер jdbs
что я делаю:
1)копирую драйвер себе в jupyterhub
2)добавляю в настройках спарк сессии.config('spark.jars', './jars/postgresql-42.2.19.jar')
3) пробую

df.write.format("jdbc") \
    .option("url", "my_url") \
    .option("dbtable", "my_table") \
    .option("user", "me") \
    .option("password", "password") \
    .save()

4)получаю

An error occurred while calling o2639.save.
: java.sql.SQLException: No suitable driver

источник

07:47пожаловаться #7

АА

Артем Анистратов... in Moscow Spark

Ты не указываешь драйвер в option

источник

07:48пожаловаться #8

АМ

Антон Морзавченков... in Moscow Spark

а как это сделать?) я просто неопытный)

источник

07:48пожаловаться #9

АА

Артем Анистратов... in Moscow Spark

Попробуй добавить:
.option("driver", "org.postgresql.Driver")

источник

07:52пожаловаться #10

АА

Артем Анистратов... in Moscow Spark

Вообще согласно документации:
driver
The class name of the JDBC driver to use to connect to this URL.

источник

07:53пожаловаться #11

АМ

Антон Морзавченков... in Moscow Spark

большое спасибо помогло

источник

07:57пожаловаться #12

АА

Артем Анистратов... in Moscow Spark

Ребят, могли бы подсказать, как можно избежать/улучшить множественный union?

Работаю с кривой api в которой ответы отличаются из раза в раз, поэтому над ответом делаю преобразования и объединяю в финальный датасет(union’ов > 300). Насколько хуже будет писать промежуточный результат на диск, а потом читать в один датасет?

источник

16:16пожаловаться #13

ПФ

Паша Финкельштейн... in Moscow Spark

мне звучит норм

источник

16:17пожаловаться #14

er@essbase.ru in Moscow Spark

запрос из одной таблицы ?

источник

16:19пожаловаться #15

АА

Артем Анистратов... in Moscow Spark

Не понял вопрос

источник

16:20пожаловаться #16

АА

Артем Анистратов... in Moscow Spark

А есть ли какие либо методы оптимизации union? Аля clearCache?

источник

16:21пожаловаться #17

er@essbase.ru in Moscow Spark

это 300 разных запросов к разным источникам с разными параметрами
или 300 запросов к одному источнику ?

источник

16:21пожаловаться #18

АА

Артем Анистратов... in Moscow Spark

Это 1 вариант.
Скажем есть n опросов, в рамках этих опросов есть 5 статусов, для каждого статуса есть пагинация. Каждая страница этой пагинации может отличаться по составу полей.

источник

16:25пожаловаться #19

АА

Артем Анистратов... in Moscow Spark

И не просто может, а с 70% шансом будет.
Так есть случаи, когда для каждой из 4х страниц api возвращала разные json’ы. С разным количеством полей и с разным уровнем вложенности :D

источник

16:27пожаловаться #20