Size: a a a

2020 November 10

G

Gev in Moscow Spark
Ну вот подробности то по сути и все. Есть данные порядка 500Гб в одной партиции. Это снапшот, обновляемый каждый ден и вот раз в день надо это вычитать для дальнейшей работы. ПРи этом там не один файл а много (порядка 400-500)
источник

ИК

Иван Калининский... in Moscow Spark
Gev
Ну вот подробности то по сути и все. Есть данные порядка 500Гб в одной партиции. Это снапшот, обновляемый каждый ден и вот раз в день надо это вычитать для дальнейшей работы. ПРи этом там не один файл а много (порядка 400-500)
Теперь стало понятнее. Партиция - это дельта за один день? Или это hive- партиции, в каждой из которых содержится дельта, перемешанная с неизменными данными?
источник
2020 November 11

AA

Aleksandr Aleksandro... in Moscow Spark
Gev
Ну вот подробности то по сути и все. Есть данные порядка 500Гб в одной партиции. Это снапшот, обновляемый каждый ден и вот раз в день надо это вычитать для дальнейшей работы. ПРи этом там не один файл а много (порядка 400-500)
А если прочитать эту партицию (папку), то сколько партиций в датафрейме при этом? df.rdd.getnumpartitions что возвращает?
источник

VM

Vladimir Morozov in Moscow Spark
Всем привет, как в Structured Streaming сделать вот что:  на вход есть пары (timestamp, id, text), как получить (timestamp, id, text + text + text) для записей с однниковым id.
Я разобрался что нужно делать groupBy но как ему сказать что бы он все text из сгруппированных слил в один?
источник

VM

Vladimir Morozov in Moscow Spark
есть функции first и last для того что бы получить данные из группировки, но не могу найти что-то типо join или merge
источник

AS

Andrey Smirnov in Moscow Spark
collect_list?
источник

VM

Vladimir Morozov in Moscow Spark
Andrey Smirnov
collect_list?
да это почти то что адо, а как array<string> в string слить?
источник

VM

Vladimir Morozov in Moscow Spark
udf?
источник

AP

Alexandr Pismenskii in Moscow Spark
concat_ws?
источник

AP

Alexandr Pismenskii in Moscow Spark
А, не, так не выйдет
источник

VM

Vladimir Morozov in Moscow Spark
через UDF вышло
источник
2020 November 12

AS

Andrey Smirnov in Moscow Spark
Vladimir Morozov
через UDF вышло
а просто через concat не получилось?
источник

G

Gev in Moscow Spark
Иван Калининский
Теперь стало понятнее. Партиция - это дельта за один день? Или это hive- партиции, в каждой из которых содержится дельта, перемешанная с неизменными данными?
Партиция это снепшот. Каждый день она создается заново
источник

VM

Vladimir Morozov in Moscow Spark
Andrey Smirnov
а просто через concat не получилось?
Нет, по той же причине почему и concat_ws не подходит - обе функции для сливания n колонок, а у меня одна колонка в которой массив обьектов
источник

AL

Anton Lashin in Moscow Spark
Vladimir Morozov
Нет, по той же причине почему и concat_ws не подходит - обе функции для сливания n колонок, а у меня одна колонка в которой массив обьектов
array_join?
источник

ИГ

Игорь Гомановский... in Moscow Spark
Gev
Партиция это снепшот. Каждый день она создается заново
А можно чуть поподробнее о задаче? Вы писали что этот снепшот в 500 ГБ нужно будет обрабатывать. Пока не понятно, что хотите сделать
источник

G

Gev in Moscow Spark
Игорь Гомановский
А можно чуть поподробнее о задаче? Вы писали что этот снепшот в 500 ГБ нужно будет обрабатывать. Пока не понятно, что хотите сделать
Да, конечно. В общем. есть глобальная партиция снапшота и нам надо, прочитать ее и выделить дельту относительно того, что уже было вычитано. И положить уже раскинув по партициям.
источник

VM

Vladimir Morozov in Moscow Spark
Anton Lashin
array_join?
в 2.3.0 не вижу такого
источник

ИГ

Игорь Гомановский... in Moscow Spark
Gev
Да, конечно. В общем. есть глобальная партиция снапшота и нам надо, прочитать ее и выделить дельту относительно того, что уже было вычитано. И положить уже раскинув по партициям.
То есть у вас планируется 1 join снепшота с партицированным хранилищем и append результата в это же хранилище?
источник

G

Gev in Moscow Spark
Игорь Гомановский
То есть у вас планируется 1 join снепшота с партицированным хранилищем и append результата в это же хранилище?
Верно
источник