Телеграмм чат группы moscowspark страница 704

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Moscow Spark

1101 membersпожаловаться на группу

2021 June 22

DT

Danz The Deadly in Moscow Spark

А вот датабрикс, где половина параметров скрыта или настраивается автоматически...

источник

10:50пожаловаться #1

АЖ

Андрей Жуков... in Moscow Spark

Не очень корректное сравнение, оракл сам паркеты, цсв и прочие жисоны обычно не лопатит.

А тот же big data appliance сам с хадупом

источник

10:57пожаловаться #2

Р

Рамик in Moscow Spark

Привет!
Как посчитать операт. память для spark приложения?
Например, есть две таблицы, 1 - весит 20 Гб , а 2 - 3 ГБ, выполняется left join . (оч тривиальный кейс)
Количество ядер и экзек можно взять минимальные (1 - exec, 1-core), распределение exec memory оставляем дефолтные (75 на 25 % ), броадкаст оставляем на каталист.
До этого момента выбирал эмпирическим методом оперативку для своего приложения (если падает с oom выделяю больше), а также под рукой нет графаны.

источник

12:37пожаловаться #3

Р

Рамик in Moscow Spark

где -то читал ,что в зависимости от кол parquet-файлов которые будут сплитится (для map), можно посчитать оперативку

источник

12:40пожаловаться #4

ЕГ

Евгений Глотов... in Moscow Spark

Проверенный экзекутор - 4 ядра, 16гб оперативы и 2гб оверхэд

источник

13:17пожаловаться #5

DT

Danz The Deadly in Moscow Spark

Зависит от размера партиции

источник

13:17пожаловаться #6

DT

Danz The Deadly in Moscow Spark

Обычно всасывается в один поток до 128мб файла

источник

13:18пожаловаться #7

ЕГ

Евгений Глотов... in Moscow Spark

Если на нём что-то не работает - размер входной партиции можно урезать, размер любого таска можно урезать

источник

13:18пожаловаться #8

ЕГ

Евгений Глотов... in Moscow Spark

С помощью снижения spark.files.maxPartitionBytes и увеличения spark.sql.shuffle.partitions соответственно

источник

13:20пожаловаться #9

Р

Рамик in Moscow Spark

если я не ошибаюсь, то это от block size зависит (block=split)

источник

13:25пожаловаться #10

Р

Рамик in Moscow Spark

а как это посчитать самому ? ) если отправите статейку буду очень благодарен

источник

13:27пожаловаться #11

ЕГ

Евгений Глотов... in Moscow Spark

Никак, просто запустить 10 тысяч джобов с разными видами экзекуторов и убедиться, что этот в среднем лучше всего работает😐

источник

13:27пожаловаться #12

ЕГ

Евгений Глотов... in Moscow Spark

Ну, конечно, чем больше оперативы в экзекуторе, тем ему проще

источник

13:28пожаловаться #13

ЕГ

Евгений Глотов... in Moscow Spark

Но чаще всего упирается в то, что оперативки на кластере примерно и есть 4гб на ядро

источник

13:28пожаловаться #14

ЕГ

Евгений Глотов... in Moscow Spark

Первая точка, от которой нужно отталкиваться - а сколько памяти и коров у вас вообще есть

источник

13:29пожаловаться #15

Р

Рамик in Moscow Spark

на кластере достаточно ресурсов (500 коров , 2Тб ), но мне не все доступно (ограничения ярна)

источник

13:31пожаловаться #16

ЕГ

Евгений Глотов... in Moscow Spark

Кек, 4гб на ядро)

источник

13:31пожаловаться #17

ПФ

Паша Финкельштейн... in Moscow Spark

К счастью, это очень легко диагностировать

источник

13:32пожаловаться #18

ЕГ

Евгений Глотов... in Moscow Spark

Ну просто это стандартное соотношение

источник

13:32пожаловаться #19

ЕГ

Евгений Глотов... in Moscow Spark

Неважно, сколько выдаётся отдельному юзеру, важно равномерно использовать оба ресурса, чтоб не было перекосов

источник

13:33пожаловаться #20