Size: a a a

2020 March 29

K

KrivdaTheTriewe in Moscow Spark
да
источник

K

KrivdaTheTriewe in Moscow Spark
копаю
источник

GP

Grigory Pomadchin in Moscow Spark
Если тебе мерёжи надо делать будет и групп баи то ты в этом сплите на 500 строк можешь из сгруппировать так что бы у тебя солоцированные данные были на одном ехеке чтоб не шафлить
источник

GP

Grigory Pomadchin in Moscow Spark
Если это невозможно (слишком здоровы партиции будут) придётся шафлить конечно
источник

R

Roman in Moscow Spark
А почему не вариант все эти файлы свалить в одну папку и читать как один df?
источник

R

Roman in Moscow Spark
Ну или хотя бы как партицированный
источник

ИК

Иван Калининский... in Moscow Spark
Ребята, может еще поможете в одном кейсе: как можно применить функцию percentile_approx, чтобы ее второй параметр: массив процентилей, которым нужно сопоставить значения, был бы динамический в зависимости от значения конкретного поля. Пока что я делаю это опять через  union, на больших объемах это может стать печальным.
источник
2020 March 30

PK

Pavel Klemenkov in Moscow Spark
Рустам тут у @zuynew вопросик есть обкашлять
источник

K

KrivdaTheTriewe in Moscow Spark
Pavel Klemenkov
Рустам тут у @zuynew вопросик есть обкашлять
у вас нет случайно самопильных jdbc сорсов?
источник

GP

Grigory Pomadchin in Moscow Spark
KrivdaTheTriewe
у вас нет случайно самопильных jdbc сорсов?
...
источник

K

KrivdaTheTriewe in Moscow Spark
что ты все ...
источник

K

KrivdaTheTriewe in Moscow Spark
пишешь
источник

GP

Grigory Pomadchin in Moscow Spark
KrivdaTheTriewe
что ты все ...
мне очень смешно просто и чтоб не захламлять буквами чат я таким образом выразил крайнюю степень увеселения
источник

С

Сюткин in Moscow Spark
А самопильные сорцы например к чему?
источник

N

Nikolay in Moscow Spark
KrivdaTheTriewe
у вас нет случайно самопильных jdbc сорсов?
Зачем тебе сорцы. Тебе же надо просто запрос к базе сделать .
источник

DZ

Dmitry Zuev in Moscow Spark
Nikolay
Зачем тебе сорцы. Тебе же надо просто запрос к базе сделать .
50к запросов
источник

N

Nikolay in Moscow Spark
Как вариант - сделать свой rdd . И у него просто будет много партиции. У него вроле терадата. Вот сделать TeradadaRDD(sqls:Seq[String]). И потом из него сделать DataFrame
источник

GP

Grigory Pomadchin in Moscow Spark
Nikolay
Как вариант - сделать свой rdd . И у него просто будет много партиции. У него вроле терадата. Вот сделать TeradadaRDD(sqls:Seq[String]). И потом из него сделать DataFrame
ну это и есть сделать свой сурс
источник

K

KrivdaTheTriewe in Moscow Spark
Nikolay
Зачем тебе сорцы. Тебе же надо просто запрос к базе сделать .
1тб в партиции лежит оракловой
источник

GP

Grigory Pomadchin in Moscow Spark
если надо дф на выходе ты проще свой сорс запилить; таж фигня заодно апи норм
источник