Size: a a a

2021 February 16

t

tenKe in Moscow Spark
2.7 на этой вкладке - это 5G суммарно в хипе
источник

t

tenKe in Moscow Spark
я думаю все таки на 5G ошибка другая будет - перепроверь
источник

ВК

Вячеслав Колосков... in Moscow Spark
Паша Финкельштейн
Стоп-стоп, а физически на воркерах сколько памяти? И на чём крутятся воркеры? Это не докер случайно?
на нодах? больше 200 вроде. докеров нету
источник

ВК

Вячеслав Колосков... in Moscow Spark
tenKe
я думаю все таки на 5G ошибка другая будет - перепроверь
вот щас запустил жду...
источник

ВК

Вячеслав Колосков... in Moscow Spark
а почему вы думаете что дело в воркерах? я выше писал что в ошибке указан контейнер Апликейшен мастера.
источник

ВК

Вячеслав Колосков... in Moscow Spark
это разве не в сторону драйвера надо копать?
источник

t

tenKe in Moscow Spark
а, ну если это драйвер, то накинь тамя памяти, только это не в коде надо делать
источник

t

tenKe in Moscow Spark
а в конфиге spark-defaults.conf или через spark-submit --driver-memory 5g
источник

ВК

Вячеслав Колосков... in Moscow Spark
tenKe
а, ну если это драйвер, то накинь тамя памяти, только это не в коде надо делать
в этом и вопрос - у меня для драйвера указано 100G - почему он ругается на 2G
источник

t

tenKe in Moscow Spark
потому что у тебя уже жвм в драйвером запущена
источник

t

tenKe in Moscow Spark
ей пофиг на то, что ты в config про драйвер указал
источник

ВК

Вячеслав Колосков... in Moscow Spark
ок,
ща попробую
источник

t

tenKe in Moscow Spark
для воркеров это раотает
источник

t

tenKe in Moscow Spark
для драйвера - нет
источник

t

tenKe in Moscow Spark
тк воркеры начинаются спауниться после создания SparkSession
источник

NN

No Name in Moscow Spark
Вячеслав Колосков
spark = (
   pyspark
   .sql
   .SparkSession
   .builder
   .master("yarn")
   .appName(f"test")
   .config("spark.driver.cores", "10")
   .config("spark.driver.memory", "100G")
   .config("spark.executor.instances","400")
   .config("spark.executor.cores", "1")
   .config("spark.executor.memory", "2G")
   .config("spark.python.worker.reuse", "false")
   .config("yarn.nodemanager.vmem-check-enabled", "false")
   .enableHiveSupport()
   .getOrCreate()
)
Как возможный совет - увеличить количество коров на экзекутор, а то получается оверхед за счёт того, что на каждый jvm всего одна корова.
источник

G

Gev in Moscow Spark
Народ. Подскажите. Как мне прочитать и сджойнить огромный набор непартийированных данных.  Шаффлинг зашкаливает. Пока приходит в голову только считать и пересохранить все это партицированно . Только боюсь что прочитать и сохранить не получится изза обьемов
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Gev
Народ. Подскажите. Как мне прочитать и сджойнить огромный набор непартийированных данных.  Шаффлинг зашкаливает. Пока приходит в голову только считать и пересохранить все это партицированно . Только боюсь что прочитать и сохранить не получится изза обьемов
мэпредьюсом?
источник

G

Gev in Moscow Spark
Паша Финкельштейн
мэпредьюсом?
Прям по хардкору?
источник

G

Gev in Moscow Spark
Пересохранять - не хочется
источник