Container killed by YARN for exceeding memory
limits😊
Всем привет. Делаю разбор логов на pyspark. Логика парсинга через udf. Сваливается по памяти при записе на HDFS.
Заметил что сваливается НЕ из-за размера исходного датасета, а от количество колонок в DF. Напирмер: 3 колонки проходит на запись, а 11 уже нет на томже датасете.
executor_memory="6g"
executor_cores=2
executor.memoryOverhead=2
g
Куда копать?))
Ну у тебя там по идее гоняется много данных из натива в питон и обратно. В какой-то момент, вероятно, становится слишком много