Size: a a a

2018 September 11

N

Nikolay in Moscow Spark
Привет. Спарк на диск скидывает данные, если выполняется группировка ?
источник

GP

Grigory Pomadchin in Moscow Spark
источник

GP

Grigory Pomadchin in Moscow Spark
Хороший вопрос; может контекста побольше? а то можно и на диск и не сбрасывать и не группировать
источник

AP

Alexander Piminov in Moscow Spark
+
It depends
источник

N

Nikolay in Moscow Spark
Вот например, ,делаю просто groupBy(...).count
источник

N

Nikolay in Moscow Spark
А как посмотреть . Скидывал он на диск или нет
источник

ZM

ZLoyer Matveev in Moscow Spark
вродь spill или как то так оно звалось в веб морде джобов
источник

ZM

ZLoyer Matveev in Moscow Spark
ну и по логам
источник

AY

Andrew Ya in Moscow Spark
Shuffle write?
источник

PK

Pavel Klemenkov in Moscow Spark
Вообще unified memory management как бэ символизирует, что горячие данные джобов вытесняются с меньшей вероятностью, чем закэшенные. Но как узнать, был ли spill на диск сам хочу
источник

N

Nikolay in Moscow Spark
Сейчас скину статью, где пишут очень странные вещи .
источник

N

Nikolay in Moscow Spark
At each stage boundary, data is written to disk by tasks in the parent stages and then fetched over the network by tasks in the child stage. 
источник

N

Nikolay in Moscow Spark
источник

N

Nikolay in Moscow Spark
Тут я и вычитал про сброс на диск.
источник

NU

Nikita U in Moscow Spark
Там же куча настроек на этот счёт
https://spark.apache.org/docs/latest/configuration.html#shuffle-behavior
источник

ЕЖ

Екатерина Жданова... in Moscow Spark
Ребята, всем привет! Подскажите, а вакансии сюда можно кидать?
источник

DA

Daria Abdullina in Moscow Spark
да
источник

DA

Daria Abdullina in Moscow Spark
но лучше
источник

DA

Daria Abdullina in Moscow Spark
сюда  с пометкой #job
источник

DA

Daria Abdullina in Moscow Spark
источник