Телеграмм чат группы moscowspark страница 479

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Moscow Spark

910 membersпожаловаться на группу

2020 November 10

G

Gev in Moscow Spark

Ну вот подробности то по сути и все. Есть данные порядка 500Гб в одной партиции. Это снапшот, обновляемый каждый ден и вот раз в день надо это вычитать для дальнейшей работы. ПРи этом там не один файл а много (порядка 400-500)

источник

17:30пожаловаться #1

ИК

Иван Калининский... in Moscow Spark

Ну вот подробности то по сути и все. Есть данные порядка 500Гб в одной партиции. Это снапшот, обновляемый каждый ден и вот раз в день надо это вычитать для дальнейшей работы. ПРи этом там не один файл а много (порядка 400-500)

Теперь стало понятнее. Партиция - это дельта за один день? Или это hive- партиции, в каждой из которых содержится дельта, перемешанная с неизменными данными?

источник

17:34пожаловаться #2

2020 November 11

AA

Aleksandr Aleksandro... in Moscow Spark

Ну вот подробности то по сути и все. Есть данные порядка 500Гб в одной партиции. Это снапшот, обновляемый каждый ден и вот раз в день надо это вычитать для дальнейшей работы. ПРи этом там не один файл а много (порядка 400-500)

А если прочитать эту партицию (папку), то сколько партиций в датафрейме при этом? df.rdd.getnumpartitions что возвращает?

источник

00:49пожаловаться #3

VM

Vladimir Morozov in Moscow Spark

Всем привет, как в Structured Streaming сделать вот что: на вход есть пары (timestamp, id, text), как получить (timestamp, id, text + text + text) для записей с однниковым id.
Я разобрался что нужно делать groupBy но как ему сказать что бы он все text из сгруппированных слил в один?

источник

22:30пожаловаться #4

VM

Vladimir Morozov in Moscow Spark

есть функции first и last для того что бы получить данные из группировки, но не могу найти что-то типо join или merge

источник

22:32пожаловаться #5

AS

Andrey Smirnov in Moscow Spark

collect_list?

источник

22:37пожаловаться #6

VM

Vladimir Morozov in Moscow Spark

collect_list?

да это почти то что адо, а как array<string> в string слить?

источник

22:48пожаловаться #7

VM

Vladimir Morozov in Moscow Spark

udf?

источник

22:49пожаловаться #8

AP

Alexandr Pismenskii in Moscow Spark

concat_ws?

источник

22:52пожаловаться #9

AP

Alexandr Pismenskii in Moscow Spark

А, не, так не выйдет

источник

22:53пожаловаться #10

VM

Vladimir Morozov in Moscow Spark

через UDF вышло

источник

23:03пожаловаться #11

2020 November 12

AS

Andrey Smirnov in Moscow Spark

Vladimir Morozov

через UDF вышло

а просто через concat не получилось?

источник

00:09пожаловаться #12

G

Gev in Moscow Spark

Иван Калининский

Теперь стало понятнее. Партиция - это дельта за один день? Или это hive- партиции, в каждой из которых содержится дельта, перемешанная с неизменными данными?

Партиция это снепшот. Каждый день она создается заново

источник

06:46пожаловаться #13

VM

Vladimir Morozov in Moscow Spark

а просто через concat не получилось?

Нет, по той же причине почему и concat_ws не подходит - обе функции для сливания n колонок, а у меня одна колонка в которой массив обьектов

источник

11:11пожаловаться #14

AL

Anton Lashin in Moscow Spark

Vladimir Morozov

Нет, по той же причине почему и concat_ws не подходит - обе функции для сливания n колонок, а у меня одна колонка в которой массив обьектов

array_join?

источник

11:18пожаловаться #15

ИГ

Игорь Гомановский... in Moscow Spark

Партиция это снепшот. Каждый день она создается заново

А можно чуть поподробнее о задаче? Вы писали что этот снепшот в 500 ГБ нужно будет обрабатывать. Пока не понятно, что хотите сделать

источник

11:25пожаловаться #16

G

Gev in Moscow Spark

Игорь Гомановский

А можно чуть поподробнее о задаче? Вы писали что этот снепшот в 500 ГБ нужно будет обрабатывать. Пока не понятно, что хотите сделать

Да, конечно. В общем. есть глобальная партиция снапшота и нам надо, прочитать ее и выделить дельту относительно того, что уже было вычитано. И положить уже раскинув по партициям.

источник

11:27пожаловаться #17

VM

Vladimir Morozov in Moscow Spark

array_join?

в 2.3.0 не вижу такого

источник

11:31пожаловаться #18

ИГ

Игорь Гомановский... in Moscow Spark

Да, конечно. В общем. есть глобальная партиция снапшота и нам надо, прочитать ее и выделить дельту относительно того, что уже было вычитано. И положить уже раскинув по партициям.

То есть у вас планируется 1 join снепшота с партицированным хранилищем и append результата в это же хранилище?

источник

12:04пожаловаться #19

G

Gev in Moscow Spark

Игорь Гомановский

То есть у вас планируется 1 join снепшота с партицированным хранилищем и append результата в это же хранилище?

Верно

источник

12:05пожаловаться #20