Size: a a a

2021 September 15

NN

No Name in Data Engineers
Я, конечно, деталей Вашего спарк-приложения не знаю, но локальный спарк очевидно шустрее стартанет, чем развернутый на кластере, там накладных будет меньше гораздо. Тем более, если ещё и данных мало.
источник

AZ

Anton Zadorozhniy in Data Engineers
Это нормально, Spark про throughput, не про latency
источник

VF

Vasily Fomin in Data Engineers
Я использую PySpark, локально он создаёт сессию и подключается как stand-alone, если я правильно понял, то в AWS там тоже сессия, но через YARN и Livy.

Тест провожу в Jupyter
источник

VF

Vasily Fomin in Data Engineers
А с какого примерно размера данных это начинает работать? Я тоже думаю, что у нас данные не такие и большие, поэтому Athena(Presto) хорошо подходят.

Ещё может кто-то знает, для presto есть что-то вроде Spark DataFrame, чтобы sql получился, или нужно руками/sqlalchemy писать?
источник

AZ

Anton Zadorozhniy in Data Engineers
тут зависит от того из чего вы выбираете, и кого спрашиваете 😊 сколько у вас данных?
источник

AZ

Anton Zadorozhniy in Data Engineers
Мне не знакомы хорошие data frame библиотеки с поддержкой Presto как движка, кроме pyspark и koala я знаю только verticapy и нашу, вам они не подойдут
источник

VF

Vasily Fomin in Data Engineers
В данном случае, ~1200 файлов, каждый около мегабайта.
Лежат на S3, разбито по датам.

Запрос по сути select * limit 1000;
источник

AZ

Anton Zadorozhniy in Data Engineers
если вам нужны низкие задержки - загрузите в postgres, если задержки афины устраивают - используйте ее конечно
источник

AZ

Anton Zadorozhniy in Data Engineers
если у вас в сто раз больше данных не станет - вам не нужен спарк или EMR
источник

VF

Vasily Fomin in Data Engineers
И забыл добавил - данные в parquet, конкретно в этом случае 10 колонок
источник

VF

Vasily Fomin in Data Engineers
Хочется что-то вроде Спарк, потому что данные могут быть очень вложенные и схема меняется, Спарк умеет с таким работать, не уверен, как в Postgres такое прикручивают
источник

AZ

Anton Zadorozhniy in Data Engineers
попробуйте движки пошустрее которые работают с S3 (databricks photon, firebolt), но я бы все равно в базу грузил, ПГ, кликхаус или что-то такое
источник

AZ

Anton Zadorozhniy in Data Engineers
ну или положить в EBS том и с одной машины спарком дергать, будет меньше головной боли
источник

AZ

Anton Zadorozhniy in Data Engineers
я не знаю что вы из этих данных делаете, но это десктопный объем, EMR это из пушки по воробъям
источник

K

KGM in Data Engineers
Всем привет!

Есть тут возможность с кем-то обсудить джоины и их оптимизацию в лс?

- Spark 2.4.4
- Hadoop 2.7
источник

GP

Grigory Pomadchin in Data Engineers
пиши тут, многим интересно будет
источник

T

T in Data Engineers
Положите в редшифт, зачем вам Спарк?
источник

VF

Vasily Fomin in Data Engineers
Редшифт умеет работать с данными без схемы или форматом parquet? Не работал с ним
источник

VF

Vasily Fomin in Data Engineers
Ага, понимаю, просто большинство файлов несколько мегабайт, но есть по 500мб плюс, и ещё они такие маленькие, потому что parquet отлично ужимает, в большинстве случаев у нас >50% сжатие получается
источник

T

T in Data Engineers
С паркетом умеет через Спектрум
источник