Size: a a a

2021 June 22

DT

Danz The Deadly in Moscow Spark
А вот датабрикс, где половина параметров скрыта или настраивается автоматически...
источник

АЖ

Андрей Жуков... in Moscow Spark
Не очень корректное сравнение, оракл сам паркеты, цсв и прочие жисоны обычно не лопатит.

А тот же big data appliance сам с хадупом
источник

Р

Рамик in Moscow Spark
Привет!
Как посчитать операт. память для spark приложения?  
Например, есть две таблицы, 1 - весит 20 Гб , а 2 - 3 ГБ,  выполняется left  join . (оч тривиальный кейс)
Количество ядер и экзек  можно взять минимальные (1 - exec, 1-core), распределение exec memory оставляем дефолтные (75  на 25 % ), броадкаст оставляем на каталист.
До этого момента выбирал эмпирическим методом оперативку для своего приложения (если падает с oom выделяю больше), а также под рукой нет графаны.
источник

Р

Рамик in Moscow Spark
где -то читал ,что  в зависимости от кол parquet-файлов которые будут сплитится (для map), можно посчитать оперативку
источник

ЕГ

Евгений Глотов... in Moscow Spark
Проверенный экзекутор - 4 ядра, 16гб оперативы и 2гб оверхэд
источник

DT

Danz The Deadly in Moscow Spark
Зависит от размера партиции
источник

DT

Danz The Deadly in Moscow Spark
Обычно всасывается в один поток до 128мб файла
источник

ЕГ

Евгений Глотов... in Moscow Spark
Если на нём что-то не работает - размер входной партиции можно урезать, размер любого таска можно урезать
источник

ЕГ

Евгений Глотов... in Moscow Spark
С помощью снижения spark.files.maxPartitionBytes и увеличения spark.sql.shuffle.partitions соответственно
источник

Р

Рамик in Moscow Spark
если я не ошибаюсь, то это от block size зависит (block=split)
источник

Р

Рамик in Moscow Spark
а как это посчитать самому ? )  если отправите статейку буду очень благодарен
источник

ЕГ

Евгений Глотов... in Moscow Spark
Никак, просто запустить 10 тысяч джобов с разными видами экзекуторов и убедиться, что этот в среднем лучше всего работает😐
источник

ЕГ

Евгений Глотов... in Moscow Spark
Ну, конечно, чем больше оперативы в экзекуторе, тем ему проще
источник

ЕГ

Евгений Глотов... in Moscow Spark
Но чаще всего упирается в то, что оперативки на кластере примерно и есть 4гб на ядро
источник

ЕГ

Евгений Глотов... in Moscow Spark
Первая точка, от которой нужно отталкиваться - а сколько памяти и коров у вас вообще есть
источник

Р

Рамик in Moscow Spark
на кластере достаточно ресурсов (500 коров , 2Тб ), но мне не все доступно (ограничения ярна)
источник

ЕГ

Евгений Глотов... in Moscow Spark
Кек, 4гб на ядро)
источник

ПФ

Паша Финкельштейн... in Moscow Spark
К счастью, это очень легко диагностировать
источник

ЕГ

Евгений Глотов... in Moscow Spark
Ну просто это стандартное соотношение
источник

ЕГ

Евгений Глотов... in Moscow Spark
Неважно, сколько выдаётся отдельному юзеру, важно равномерно использовать оба ресурса, чтоб не было перекосов
источник