Телеграмм чат группы moscowspark страница 687

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Moscow Spark

1085 membersпожаловаться на группу

2021 May 30

GP

Grigory Pomadchin in Moscow Spark

источник

04:56пожаловаться #1

GP

Grigory Pomadchin in Moscow Spark

кластер = одна машина такая оч жирная с кучей ядер

источник

04:56пожаловаться #2

GP

Grigory Pomadchin in Moscow Spark

источник

04:56пожаловаться #3

С

Сюткин in Moscow Spark

Может там на 300 лямов записей лярд мелких файлов

источник

12:25пожаловаться #4

С

Сюткин in Moscow Spark

источник

12:25пожаловаться #5

PK

Pavel Klemenkov in Moscow Spark

И все время уходит тупо, чтоб листинг сделать?

источник

12:47пожаловаться #6

С

Сюткин in Moscow Spark

Легко

источник

12:58пожаловаться #7

ЕГ

Евгений Глотов... in Moscow Spark

Корпоративный стандарт)

источник

14:13пожаловаться #8

ЕГ

Евгений Глотов... in Moscow Spark

Час формируется джоб, час считается, час пишется (в тыщу партиций по 200 файлов)

источник

14:14пожаловаться #9

GP

Grigory Pomadchin in Moscow Spark

И пишется (код или ямлы) руками неделю

источник

14:18пожаловаться #10

NN

No Name in Moscow Spark

Если один только листинг час занимает, тогда, наверное, пора айсберг прикручивать

источник

14:52пожаловаться #11

ММ

Максим Мартынов... in Moscow Spark

мы написали компактор на Scala, который через df.rdd.map и кастомный Partitioner позволяет сливать кучу мелких файлов в каждой партиции в несколько крупных

источник

15:12пожаловаться #12

ММ

Максим Мартынов... in Moscow Spark

и обертку над write, которая его вызывает. если запись выполняется слишком часто, то можно его вызывать отдельно, в какой-нибудь периодической джобе

источник

15:15пожаловаться #13

NN

No Name in Moscow Spark

А как он у нас в Вики называется? Кажется, потребность назрела

источник

15:17пожаловаться #14

ММ

Максим Мартынов... in Moscow Spark

запись конечно будет медленнее, т.к. внутри фуллсканятся все строки.
зато чтение ускоряется многократно. например, в одной крупной таблице до компактизации было 300к файлов по 1Мб, запрос по ним выполнялся 60 минут, после стало 3к файлов по 100Мб, время выполнения запроса уменьшилось до 1 минуты

источник

15:20пожаловаться #15

AK

Alena Korogodova in Moscow Spark

Поделись ссылкой в рабочий чатик 😏

источник

15:22пожаловаться #16

2021 May 31

AS

Andrey Smirnov in Moscow Spark

тарантул же, какой-то такой игнат, там же джава, тормозит

источник

10:33пожаловаться #17

ПФ

Паша Финкельштейн... in Moscow Spark

Редпанда! Я ещё не придумал как на ней решить эту задачу, но наверняка как-то можно

источник

10:38пожаловаться #18

AS

Andrey Smirnov in Moscow Spark

там наверное тоже есть стримы, можно как в кафке делать join и groupBy.

источник

10:40пожаловаться #19

ПФ

Паша Финкельштейн... in Moscow Spark

Я думал они только основной API копируют

источник

10:43пожаловаться #20