Телеграмм чат группы moscowspark страница 592

Зачем вообще сохранять в локальную fs данные shuffle? Почему нельзя оставить в памяти до считывания следующим шагом? И так и так данные теряются в случае падения контейнера, но можно чуть сэкономить на времени записи

источник

13:18пожаловаться #4

A

Alex in Moscow Spark

Почему вы это у меня спрашиваете :)

источник

13:18пожаловаться #5

А

Алексей in Moscow Spark

Alex

Почему вы это у меня спрашиваете :)

может есть предположения или ссылки)

источник

13:19пожаловаться #6

A

Alex in Moscow Spark

В данный момент даже если у вас 3 записи, вы вызываете репартишен, они улетают на диск

В 3м что-то пытались уже оптимизировать

источник

13:19пожаловаться #7

A

Alex in Moscow Spark

Поэтому я и смеюсь каждый раз когда мне рассказывают как спарк all in memory в отличии от hadoop map reduce

источник

13:19пожаловаться #8

А

Алексей in Moscow Spark

Alex

Поэтому я и смеюсь каждый раз когда мне рассказывают как спарк all in memory в отличии от hadoop map reduce

+

A

может есть предположения или ссылки)

Предположение одно: так было проще, реализовали как и в хадупе - шафл на диск, дальше воркеры делают pull нужных файлов

источник

13:20пожаловаться #10

A

Alex in Moscow Spark

Но за счёт того что map операции можно было цепочкой навестить много, то меньше данных на диск чем в мр классическом уходило

Ну или там нужно были самому эти мэп в одну джобу ручками клеить

источник

13:21пожаловаться #11

2021 March 09

PK

Pavel Klemenkov in Moscow Spark

Хм, интрига

источник

17:19пожаловаться #12

OI

Oleg Ilinsky in Moscow Spark

Pavel Klemenkov

Хм, интрига

+
тоже жду
ща вопрос про конфу будет или всё-таки спам

источник

17:19пожаловаться #13

e

er@essbase.ru in Moscow Spark

сам факт такой учетки - спам

источник

17:20пожаловаться #14

2021 March 10

GK

Gleb Kozhaev in Moscow Spark

Container killed by YARN for exceeding memory
limits😊

Всем привет. Делаю разбор логов на pyspark. Логика парсинга через udf. Сваливается по памяти при записе на HDFS.

Заметил что сваливается НЕ из-за размера исходного датасета, а от количество колонок в DF. Напирмер: 3 колонки проходит на запись, а 11 уже нет на томже датасете.

executor_memory="6g"
executor_cores=2

executor.memoryOverhead=2g

Куда копать?))

источник

12:41пожаловаться #15

ПФ

Паша Финкельштейн... in Moscow Spark

Gleb Kozhaev

Container killed by YARN for exceeding memory
limits😊

Всем привет. Делаю разбор логов на pyspark. Логика парсинга через udf. Сваливается по памяти при записе на HDFS.

Заметил что сваливается НЕ из-за размера исходного датасета, а от количество колонок в DF. Напирмер: 3 колонки проходит на запись, а 11 уже нет на томже датасете.