Size: a a a

2021 April 12

K

KrivdaTheTriewe in Moscow Spark
ко вообще не хочется трогать
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Ну так и не надо
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Запустил процесс, подключился к нему на 10 могут async profiler, получил svg'шку и ходишь по ней
источник

K

KrivdaTheTriewe in Moscow Spark
у меня есть подозрение, что хдфс еще может не тянуть
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Ну тогда в трассе ты увидишь что всё время у тебя уходит в чтение с hdfs
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Это можно понять для начала просто сняв несколько раз thread dump.
источник
2021 April 15

АМ

Антон Морзавченков... in Moscow Spark
Всем доброе утро, подскажите плиз как правильно пробрасывать драйвер jdbs
что я делаю:
1)копирую драйвер себе в jupyterhub
2)добавляю в настройках спарк сессии.config('spark.jars', './jars/postgresql-42.2.19.jar')
3) пробую
df.write.format("jdbc") \
   .option("url", "my_url") \
   .option("dbtable", "my_table") \
   .option("user", "me") \
   .option("password", "password") \
   .save()
4)получаю
An error occurred while calling o2639.save.
: java.sql.SQLException: No suitable driver
источник

АА

Артем Анистратов... in Moscow Spark
Ты не указываешь драйвер в option
источник

АМ

Антон Морзавченков... in Moscow Spark
а как это сделать?) я просто неопытный)
источник

АА

Артем Анистратов... in Moscow Spark
Попробуй добавить:
.option("driver", "org.postgresql.Driver")
источник

АА

Артем Анистратов... in Moscow Spark
Вообще согласно документации:
driver
The class name of the JDBC driver to use to connect to this URL.
источник

АМ

Антон Морзавченков... in Moscow Spark
большое спасибо помогло
источник

АА

Артем Анистратов... in Moscow Spark
Ребят, могли бы подсказать, как можно избежать/улучшить множественный union?

Работаю с кривой api в которой ответы отличаются из раза в раз, поэтому над ответом делаю преобразования и объединяю в финальный датасет(union’ов > 300). Насколько хуже будет писать промежуточный результат на диск, а потом читать в один датасет?
источник

ПФ

Паша Финкельштейн... in Moscow Spark
мне звучит норм
источник

e

er@essbase.ru in Moscow Spark
запрос из одной таблицы ?
источник

АА

Артем Анистратов... in Moscow Spark
Не понял вопрос
источник

АА

Артем Анистратов... in Moscow Spark
А есть ли какие либо методы оптимизации union? Аля clearCache?
источник

e

er@essbase.ru in Moscow Spark
это 300 разных запросов к разным источникам с разными параметрами
или 300 запросов к одному источнику ?
источник

АА

Артем Анистратов... in Moscow Spark
Это 1 вариант.
Скажем есть n опросов, в рамках этих опросов есть 5 статусов, для каждого статуса есть пагинация. Каждая страница этой пагинации может отличаться по составу полей.
источник

АА

Артем Анистратов... in Moscow Spark
И не просто может, а с 70% шансом будет.
Так есть случаи, когда для каждой из 4х страниц api возвращала разные json’ы. С разным количеством полей и с разным уровнем вложенности :D
источник