Size: a a a

2021 June 10

N

Nail in Moscow Spark
Я так понимаю читаться будут только те файлы, что есть в списке в памяти. И настройка эта просто скажет пропустить те файлы, которых нет. Но это не даст зачитать новые файлы. Я говорю о том чтобы читать непосредственно из файловой системы
источник

N

Nail in Moscow Spark
Это и будет грязным чтением
источник

A

Alex in Moscow Spark
ну и если у вас файлы изменятся под диском то есть вероятность что все ваши оффсеты пойдут лесом
источник

N

Nail in Moscow Spark
Но опять же это не решение проблемы
источник

A

Alex in Moscow Spark
прочитали заголовок на файле
узнали где его блоки
сделали сплит по нужным офсетам

файл поменялся

вы по старым офсетам начинаете читать и получаете кашу

вы уверены что вам это нужно?
источник

ИК

Иван Калининский... in Moscow Spark
Плюсую, каждое такое решение - это выстрел в ногу, со временем получается пулеметная очередь хД
источник

МК

Михаил Королев... in Moscow Spark
а можно чуть подробнее про задачу (как таковую) - один "процесс" грузит постоянно из базы (куда?), второй процесс эти загруженные данные анализирует? Как часто процессы запускаются?
источник

ИК

Иван Калининский... in Moscow Spark
это ещё надо, чтобы имя файла совпало, на остальное спарк мало смотрит, получив FileStatus
источник

A

Alex in Moscow Spark
самое в лоб решение это выгружать на hdfs в хайв

после этого делаем external table/partition с указанием откуда таблица данные берёт
все новые процессы увидят уже новые файлы
старые продолжат читать из старого фолдера

отдельно процесс подчистки дохлых партиций
источник

A

Alex in Moscow Spark
такой hudi/iceberg на минималках
источник

ПБ

Повелитель Бури... in Moscow Spark
Есть spark процесс, который каждые 5 минут  обновляет данные в таблице 1
Есть adhoc запрос которому надо посчитать несколько агрегатов
источник

A

Alex in Moscow Spark
дописывание не уронит спарк
источник

A

Alex in Moscow Spark
так как все старые файлы доступны
источник

МК

Михаил Королев... in Moscow Spark
таблица - в hive/hdfs?
источник

ПБ

Повелитель Бури... in Moscow Spark
да, в hdfs
источник

ПБ

Повелитель Бури... in Moscow Spark
не хочется hive , можется все на spark сделать ))
источник

A

Alex in Moscow Spark
у вас чисто hdfs без hive как метастора?
источник

AK

Alena Korogodova in Moscow Spark
Если адхок запрос быстрее отрабатывает, чем 5 минут, то можно его просто в декоратор обернуть 😅
источник

A

Alex in Moscow Spark
кто свой?
источник

МК

Михаил Королев... in Moscow Spark
и select сделанный из спарка на эту табличку дает то сообщение, с которого все началось (выше было)?
источник