Size: a a a

2021 March 06

A

Alex in Moscow Spark
но для многих вещей интерфейсы уже появились
источник

A

Alex in Moscow Spark
https://github.com/uber/RemoteShuffleService

из того что уже есть
источник
2021 March 07

ИК

Иван Калининский... in Moscow Spark
Спасибо, изучил! Немало соображений там изложено, всё по делу
источник
2021 March 08

А

Алексей in Moscow Spark
Зачем вообще сохранять в локальную fs данные shuffle? Почему нельзя оставить в памяти до считывания следующим шагом? И так и так данные теряются в случае падения контейнера, но можно чуть сэкономить на времени записи
источник

A

Alex in Moscow Spark
Почему вы это у меня спрашиваете :)
источник

А

Алексей in Moscow Spark
Alex
Почему вы это у меня спрашиваете :)
может есть предположения или ссылки)
источник

A

Alex in Moscow Spark
В данный момент даже если у вас 3 записи, вы вызываете репартишен, они улетают на диск

В 3м что-то пытались уже оптимизировать
источник

A

Alex in Moscow Spark
Поэтому я и смеюсь каждый раз когда мне рассказывают как спарк all in memory в отличии от hadoop map reduce
источник

А

Алексей in Moscow Spark
Alex
Поэтому я и смеюсь каждый раз когда мне рассказывают как спарк all in memory в отличии от hadoop map reduce
+
источник

A

Alex in Moscow Spark
Алексей
может есть предположения или ссылки)
Предположение одно: так было проще, реализовали как и в хадупе - шафл на диск, дальше воркеры делают pull нужных файлов
источник

A

Alex in Moscow Spark
Но за счёт того что map операции можно было цепочкой навестить много, то меньше данных на диск чем в мр классическом уходило

Ну или там нужно были самому эти мэп в одну джобу ручками клеить
источник
2021 March 09

PK

Pavel Klemenkov in Moscow Spark
Хм, интрига
источник

OI

Oleg Ilinsky in Moscow Spark
Pavel Klemenkov
Хм, интрига
+
тоже жду
ща вопрос про конфу будет или всё-таки спам
источник

e

er@essbase.ru in Moscow Spark
сам факт такой учетки - спам
источник
2021 March 10

GK

Gleb Kozhaev in Moscow Spark
Container killed by YARN for exceeding memory
limits😊

Всем привет. Делаю разбор логов на pyspark. Логика парсинга через udf. Сваливается по памяти при записе на HDFS.

Заметил что сваливается НЕ из-за размера исходного датасета, а от количество колонок в  DF. Напирмер: 3 колонки проходит на запись, а 11 уже нет на томже датасете.

executor_memory="6g"
executor_cores=2

executor.memoryOverhead=2g

Куда копать?))
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Gleb Kozhaev
Container killed by YARN for exceeding memory
limits😊

Всем привет. Делаю разбор логов на pyspark. Логика парсинга через udf. Сваливается по памяти при записе на HDFS.

Заметил что сваливается НЕ из-за размера исходного датасета, а от количество колонок в  DF. Напирмер: 3 колонки проходит на запись, а 11 уже нет на томже датасете.

executor_memory="6g"
executor_cores=2

executor.memoryOverhead=2g

Куда копать?))
Ну у тебя там по идее гоняется много данных из натива в питон и обратно. В какой-то момент, вероятно, становится слишком много
источник

GK

Gleb Kozhaev in Moscow Spark
Паша Финкельштейн
Ну у тебя там по идее гоняется много данных из натива в питон и обратно. В какой-то момент, вероятно, становится слишком много
скалу не предлагать😀 udf пробовать облегчать?
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Gleb Kozhaev
скалу не предлагать😀 udf пробовать облегчать?
Нет. Количество данных от этого не изменится
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Ты всегда можешь сделать HeapDumpOnOutOfMemoryError и посмотреть где память заканчивается
источник

AS

Andrey Smirnov in Moscow Spark
Gleb Kozhaev
скалу не предлагать😀 udf пробовать облегчать?
arrow пробовали использовать?
источник