Телеграмм чат группы moscowspark страница 692

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Moscow Spark

1091 membersпожаловаться на группу

2021 June 10

N

Nail in Moscow Spark

Я так понимаю читаться будут только те файлы, что есть в списке в памяти. И настройка эта просто скажет пропустить те файлы, которых нет. Но это не даст зачитать новые файлы. Я говорю о том чтобы читать непосредственно из файловой системы

источник

11:41пожаловаться #1

N

Nail in Moscow Spark

Это и будет грязным чтением

источник

11:41пожаловаться #2

A

Alex in Moscow Spark

ну и если у вас файлы изменятся под диском то есть вероятность что все ваши оффсеты пойдут лесом

источник

11:41пожаловаться #3

N

Nail in Moscow Spark

Но опять же это не решение проблемы

источник

11:41пожаловаться #4

A

Alex in Moscow Spark

прочитали заголовок на файле
узнали где его блоки
сделали сплит по нужным офсетам

файл поменялся

вы по старым офсетам начинаете читать и получаете кашу

вы уверены что вам это нужно?

источник

11:42пожаловаться #5

ИК

Иван Калининский... in Moscow Spark

Плюсую, каждое такое решение - это выстрел в ногу, со временем получается пулеметная очередь хД

источник

11:43пожаловаться #6

МК

Михаил Королев... in Moscow Spark

а можно чуть подробнее про задачу (как таковую) - один "процесс" грузит постоянно из базы (куда?), второй процесс эти загруженные данные анализирует? Как часто процессы запускаются?

источник

11:44пожаловаться #7

ИК

Иван Калининский... in Moscow Spark

это ещё надо, чтобы имя файла совпало, на остальное спарк мало смотрит, получив FileStatus

источник

11:45пожаловаться #8

A

Alex in Moscow Spark

самое в лоб решение это выгружать на hdfs в хайв

после этого делаем external table/partition с указанием откуда таблица данные берёт
все новые процессы увидят уже новые файлы
старые продолжат читать из старого фолдера

отдельно процесс подчистки дохлых партиций

источник

11:46пожаловаться #9

A

Alex in Moscow Spark

такой hudi/iceberg на минималках

источник

11:46пожаловаться #10

ПБ

Повелитель Бури... in Moscow Spark

Есть spark процесс, который каждые 5 минут обновляет данные в таблице 1
Есть adhoc запрос которому надо посчитать несколько агрегатов

источник

11:46пожаловаться #11

A

Alex in Moscow Spark

дописывание не уронит спарк

источник

11:46пожаловаться #12

A

Alex in Moscow Spark

так как все старые файлы доступны

источник

11:46пожаловаться #13

МК

Михаил Королев... in Moscow Spark

таблица - в hive/hdfs?

источник

11:47пожаловаться #14

ПБ

Повелитель Бури... in Moscow Spark

да, в hdfs

источник

11:47пожаловаться #15

ПБ

Повелитель Бури... in Moscow Spark

не хочется hive , можется все на spark сделать ))

источник

11:48пожаловаться #16

A

Alex in Moscow Spark

у вас чисто hdfs без hive как метастора?

источник

11:48пожаловаться #17

AK

Alena Korogodova in Moscow Spark

Если адхок запрос быстрее отрабатывает, чем 5 минут, то можно его просто в декоратор обернуть 😅

источник

11:49пожаловаться #18

A

Alex in Moscow Spark

кто свой?

источник

11:49пожаловаться #19

МК

Михаил Королев... in Moscow Spark

и select сделанный из спарка на эту табличку дает то сообщение, с которого все началось (выше было)?

источник

11:49пожаловаться #20