Телеграмм чат группы hadoopusers страница 4212

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Data Engineers

3187 membersпожаловаться на группу

2021 September 15

NN

No Name in Data Engineers

Я, конечно, деталей Вашего спарк-приложения не знаю, но локальный спарк очевидно шустрее стартанет, чем развернутый на кластере, там накладных будет меньше гораздо. Тем более, если ещё и данных мало.

источник

20:21пожаловаться #1

AZ

Anton Zadorozhniy in Data Engineers

Это нормально, Spark про throughput, не про latency

источник

20:22пожаловаться #2

VF

Vasily Fomin in Data Engineers

Я использую PySpark, локально он создаёт сессию и подключается как stand-alone, если я правильно понял, то в AWS там тоже сессия, но через YARN и Livy.

Тест провожу в Jupyter

источник

20:22пожаловаться #3

VF

Vasily Fomin in Data Engineers

А с какого примерно размера данных это начинает работать? Я тоже думаю, что у нас данные не такие и большие, поэтому Athena(Presto) хорошо подходят.

Ещё может кто-то знает, для presto есть что-то вроде Spark DataFrame, чтобы sql получился, или нужно руками/sqlalchemy писать?

источник

20:24пожаловаться #4

AZ

Anton Zadorozhniy in Data Engineers

тут зависит от того из чего вы выбираете, и кого спрашиваете 😊 сколько у вас данных?

источник

20:25пожаловаться #5

AZ

Anton Zadorozhniy in Data Engineers

Мне не знакомы хорошие data frame библиотеки с поддержкой Presto как движка, кроме pyspark и koala я знаю только verticapy и нашу, вам они не подойдут

источник

20:32пожаловаться #6

VF

Vasily Fomin in Data Engineers

В данном случае, ~1200 файлов, каждый около мегабайта.
Лежат на S3, разбито по датам.

Запрос по сути select * limit 1000;

источник

20:46пожаловаться #7

AZ

Anton Zadorozhniy in Data Engineers

если вам нужны низкие задержки - загрузите в postgres, если задержки афины устраивают - используйте ее конечно

источник

20:47пожаловаться #8

AZ

Anton Zadorozhniy in Data Engineers

если у вас в сто раз больше данных не станет - вам не нужен спарк или EMR

источник

20:48пожаловаться #9

VF

Vasily Fomin in Data Engineers

И забыл добавил - данные в parquet, конкретно в этом случае 10 колонок

источник

20:49пожаловаться #10

VF

Vasily Fomin in Data Engineers

Хочется что-то вроде Спарк, потому что данные могут быть очень вложенные и схема меняется, Спарк умеет с таким работать, не уверен, как в Postgres такое прикручивают

источник

20:50пожаловаться #11

AZ

Anton Zadorozhniy in Data Engineers

попробуйте движки пошустрее которые работают с S3 (databricks photon, firebolt), но я бы все равно в базу грузил, ПГ, кликхаус или что-то такое

источник

20:52пожаловаться #12

AZ

Anton Zadorozhniy in Data Engineers

ну или положить в EBS том и с одной машины спарком дергать, будет меньше головной боли

источник

20:54пожаловаться #13

AZ

Anton Zadorozhniy in Data Engineers

я не знаю что вы из этих данных делаете, но это десктопный объем, EMR это из пушки по воробъям

источник

20:55пожаловаться #14

K

KGM in Data Engineers

Всем привет!

Есть тут возможность с кем-то обсудить джоины и их оптимизацию в лс?

- Spark 2.4.4
- Hadoop 2.7

источник

21:11пожаловаться #15

GP

Grigory Pomadchin in Data Engineers

пиши тут, многим интересно будет

источник

21:15пожаловаться #16

T

T in Data Engineers

Положите в редшифт, зачем вам Спарк?

источник

21:26пожаловаться #17

VF

Vasily Fomin in Data Engineers

Редшифт умеет работать с данными без схемы или форматом parquet? Не работал с ним

источник

21:44пожаловаться #18

VF

Vasily Fomin in Data Engineers

Ага, понимаю, просто большинство файлов несколько мегабайт, но есть по 500мб плюс, и ещё они такие маленькие, потому что parquet отлично ужимает, в большинстве случаев у нас >50% сжатие получается

источник

21:45пожаловаться #19

T

T in Data Engineers

С паркетом умеет через Спектрум

источник

21:45пожаловаться #20