Телеграмм чат группы moscowspark страница 282

да

16:14пожаловаться #1

копаю

16:14пожаловаться #2

Если тебе мерёжи надо делать будет и групп баи то ты в этом сплите на 500 строк можешь из сгруппировать так что бы у тебя солоцированные данные были на одном ехеке чтоб не шафлить

16:14пожаловаться #3

Если это невозможно (слишком здоровы партиции будут) придётся шафлить конечно

16:15пожаловаться #4

Roman in Moscow Spark

А почему не вариант все эти файлы свалить в одну папку и читать как один df?

18:07пожаловаться #5

Roman in Moscow Spark

Ну или хотя бы как партицированный

Иван Калининский... in Moscow Spark

18:08пожаловаться #6

ИК

Ребята, может еще поможете в одном кейсе: как можно применить функцию percentile_approx, чтобы ее второй параметр: массив процентилей, которым нужно сопоставить значения, был бы динамический в зависимости от значения конкретного поля. Пока что я делаю это опять через union, на больших объемах это может стать печальным.

18:09пожаловаться #7

2020 March 30

Pavel Klemenkov in Moscow Spark

Рустам тут у @zuynew вопросик есть обкашлять

14:33пожаловаться #8

Pavel Klemenkov

Рустам тут у @zuynew вопросик есть обкашлять

у вас нет случайно самопильных jdbc сорсов?

14:44пожаловаться #9

KrivdaTheTriewe

у вас нет случайно самопильных jdbc сорсов?

...

14:45пожаловаться #10

Grigory Pomadchin

...

что ты все ...

14:46пожаловаться #11

пишешь

14:46пожаловаться #12

KrivdaTheTriewe

что ты все ...

мне очень смешно просто и чтоб не захламлять буквами чат я таким образом выразил крайнюю степень увеселения

14:47пожаловаться #13

Сюткин in Moscow Spark

А самопильные сорцы например к чему?

14:51пожаловаться #14

Nikolay in Moscow Spark

KrivdaTheTriewe

у вас нет случайно самопильных jdbc сорсов?

Зачем тебе сорцы. Тебе же надо просто запрос к базе сделать .

15:35пожаловаться #15

Dmitry Zuev in Moscow Spark

Nikolay

Зачем тебе сорцы. Тебе же надо просто запрос к базе сделать .

50к запросов

15:39пожаловаться #16

Nikolay in Moscow Spark

Как вариант - сделать свой rdd . И у него просто будет много партиции. У него вроле терадата. Вот сделать TeradadaRDD(sqls:Seq[String]). И потом из него сделать DataFrame

15:41пожаловаться #17

Nikolay

ну это и есть сделать свой сурс

15:42пожаловаться #18

Nikolay

Зачем тебе сорцы. Тебе же надо просто запрос к базе сделать .

1тб в партиции лежит оракловой

15:42пожаловаться #19

если надо дф на выходе ты проще свой сорс запилить; таж фигня заодно апи норм