Size: a a a

2021 May 30

GP

Grigory Pomadchin in Moscow Spark
источник

GP

Grigory Pomadchin in Moscow Spark
кластер = одна машина такая оч жирная с кучей ядер
источник

GP

Grigory Pomadchin in Moscow Spark
источник

С

Сюткин in Moscow Spark
Может там на 300 лямов записей лярд мелких файлов
источник

С

Сюткин in Moscow Spark
источник

PK

Pavel Klemenkov in Moscow Spark
И все время уходит тупо, чтоб листинг сделать?
источник

С

Сюткин in Moscow Spark
Легко
источник

ЕГ

Евгений Глотов... in Moscow Spark
Корпоративный стандарт)
источник

ЕГ

Евгений Глотов... in Moscow Spark
Час формируется джоб, час считается, час пишется (в тыщу партиций по 200 файлов)
источник

GP

Grigory Pomadchin in Moscow Spark
И пишется (код или ямлы) руками неделю
источник

NN

No Name in Moscow Spark
Если один только листинг час занимает, тогда, наверное, пора айсберг прикручивать
источник

ММ

Максим Мартынов... in Moscow Spark
мы написали компактор на Scala, который через df.rdd.map и кастомный Partitioner позволяет сливать кучу мелких файлов в каждой партиции в несколько крупных
источник

ММ

Максим Мартынов... in Moscow Spark
и обертку над write, которая его вызывает. если запись выполняется слишком часто, то можно его вызывать отдельно, в какой-нибудь периодической джобе
источник

NN

No Name in Moscow Spark
А как он у нас в Вики называется? Кажется, потребность назрела
источник

ММ

Максим Мартынов... in Moscow Spark
запись конечно будет медленнее, т.к. внутри фуллсканятся все строки.
зато чтение ускоряется многократно. например, в одной крупной таблице до компактизации было 300к файлов по 1Мб, запрос по ним выполнялся 60 минут, после стало 3к файлов по 100Мб, время выполнения запроса уменьшилось до 1 минуты
источник

AK

Alena Korogodova in Moscow Spark
Поделись ссылкой в рабочий чатик 😏
источник
2021 May 31

AS

Andrey Smirnov in Moscow Spark
тарантул же, какой-то такой игнат, там же джава, тормозит
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Редпанда! Я ещё не придумал как на ней решить эту задачу, но наверняка как-то можно
источник

AS

Andrey Smirnov in Moscow Spark
там наверное тоже есть стримы, можно как в кафке делать join и groupBy.
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Я думал они только основной API копируют
источник