Size: a a a

2021 June 04

AS

Andrey Sutugin in Moscow Spark
Спасибо!
источник
2021 June 05

ДД

Джон Дориан... in Moscow Spark
Господа, добрый день! Много раз натыкался на информацию о том, что выделение слишком большого объема памяти на экзекьютор чревато в итоге долгой сборкой мусора.
Везде это приводится просто как факт, но, к моему стыду, для меня неочевидна связь между первым и вторым.
Может быть, кто-то может объяснить как первое приводит ко второму?
источник

ДД

Джон Дориан... in Moscow Spark
Единственное объяснение нашел вот тут, но не знаю насколько оно адекватное:
https://community.cloudera.com/t5/Support-Questions/num-executors-and-executor-memory-in-Spark/td-p/232919
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Вообще неочевидная фигня. Может там память аллоцируется и работа заканчивается
источник

ПФ

Паша Финкельштейн... in Moscow Spark
А там ещё часть памяти а дайрект байт буфферах, которые с большой вероятностью вообще не собираются GC
источник

DZ

Dmitry Zuev in Moscow Spark
Что с значит с вероятностью? В оффхипе точно не будет работать гц
источник

AS

Andrey Smirnov in Moscow Spark
На мой взгляд все правильно написано, чем больше памяти надо собирать, тем медленнее процесс ( при прочих равных). Т.е. сборка стартует реже, но если стартанула то будет дольше.
источник

ДС

Дмитрий Соболев... in Moscow Spark
источник

ДС

Дмитрий Соболев... in Moscow Spark
этого не достаточно для обоснования зависимости GC от выделяемой памяти?
источник

ДС

Дмитрий Соболев... in Moscow Spark
вам надо обосновать для кого-то почему так делать неправильно или вы для себя понять хотите?
источник

ПФ

Паша Финкельштейн... in Moscow Spark
ну она же параллельная!
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Особенно когда там G1 какой-нить
источник

N

Nikita Blagodarnyy in Moscow Spark
Ну может пару-тройку то хоть соберёт?
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Может быть случайно ничего нет в оффхипе, а всё в хипе
источник

ДД

Джон Дориан... in Moscow Spark
Второе.
Условно говоря, почему нельзя на 10гб данных выделить 1000Гб памяти и не думать ни о чем
источник

ДС

Дмитрий Соболев... in Moscow Spark
тогда второе уточнение, мы говорим про какой класс задач? у вас контйнер висит сутками на потоке или батчевые задачи?
источник

ДД

Джон Дориан... in Moscow Spark
батчевые задачи
источник

ДС

Дмитрий Соболев... in Moscow Spark
тогда это вопрос алгоритмов, и перед вами должна стоять задача оптимизации алгоритма обработки данных
источник

ДС

Дмитрий Соболев... in Moscow Spark
вы должны озаботиться тем чтобы у вас задача более эффективно развалилась по экзам а не эффективностью GC на экзах
источник

N

Nikita Blagodarnyy in Moscow Spark
Нагуглите, есть отличный цикл статей на хабре из 3 частей про гарбадж коллекшон. На русском. Если вкратце, то всё логично. Чем больше свободной памяти, тем больше туда можно напихать объектов. Чем больше объектов - тем больше нужно сделать работы, чтобы понять живые они или нет, пробежать по каждому до корней.
источник