Телеграмм чат группы moscowspark страница 240

Anton Alekseev

Не помогает, к сожалению. Судя по треду жиры, это проблема не батчей а буфера, который на 2гб.

тогда полагаю увеличение количества воркеров должно помочь

15:40пожаловаться #1

Anton Alekseev in Moscow Spark

Я немного не уловил суть проблемы между максимальным размером партиции и буфера arrow, который может заполнятся, как я понял батчами от партиции любого размера, но упрется только в свои 2 гб.

15:42пожаловаться #2

Anton Alekseev in Moscow Spark

тогда полагаю увеличение количества воркеров должно помочь

тоесть идея в уменьшении партиции? А почему репартишн не сделать тогда?))

15:46пожаловаться #3

Anton Alekseev

тоесть идея в уменьшении партиции? А почему репартишн не сделать тогда?))

ну условно если буфер один на воркер, то просто увеличение кол-ва партиций не поможет

15:46пожаловаться #4

Anton Alekseev in Moscow Spark

ну условно если буфер один на воркер, то просто увеличение кол-ва партиций не поможет

ааа, понятно.

15:46пожаловаться #5

вообще, у меня опыт с pandas/arrow двоякий - на стабильных версиях проблем почти нет, но есть некоторые сборки и вот на них какие то совершенно мутные ошибки были, вроде твоей

15:52пожаловаться #6

поэтому я бы на твоем месте локально проверил код на разных версиях спарка и эрроу, а потом бы уже емр траблшутил

15:53пожаловаться #7

Anton Alekseev in Moscow Spark

Да, я локально дебажу, чтобы емр не разгонять каждый раз. Попробую обновиться, вот только у нас на новом arrow другие ошибки всплывали, поэтому откатились до 0.14.1. Видимо пора фиксить)

15:55пожаловаться #8

Anton Alekseev in Moscow Spark

Проверили на всякий с большим числом воркеров и экзекьюторов, падает. Решение внезапно простое, перед pudf откинуть лишние колонки, там их было в 2 раза больше чем нужно, и данные стали пролезать. Тут конечно, сами себе буратины.😔

Джумурат Александр... in Moscow Spark

19:03пожаловаться #9

2020 January 13

ДА

Выгружаю питончиком данные из Postgres и делаю из них DataFrame.
Получаю ворненг

20/01/13 16:41:39 WARN TaskSetManager: Stage 597 contains a task of very large size (101634 KB). The maximum recommended task size is 100 KB.

Где бы подкрутить, чтобы от него избавиться

17:14пожаловаться #10

Yuriy Gavrilov in Moscow Spark

Выгружаю питончиком данные из Postgres и делаю из них DataFrame.
Получаю ворненг

20/01/13 16:41:39 WARN TaskSetManager: Stage 597 contains a task of very large size (101634 KB). The maximum recommended task size is 100 KB.

Где бы подкрутить, чтобы от него избавиться

Может просто закрыть сессию и открыть новую? У вас странно большое кол-во “stage 597” ...

Джумурат Александр... in Moscow Spark

17:45пожаловаться #11

ДА

Там длинный файпланй с кучей трансформаций. Он нормально работает, не падает - просто ворненги не нравятся

17:48пожаловаться #12

Сюткин in Moscow Spark

Выгружаю питончиком данные из Postgres и делаю из них DataFrame.
Получаю ворненг

20/01/13 16:41:39 WARN TaskSetManager: Stage 597 contains a task of very large size (101634 KB). The maximum recommended task size is 100 KB.

Где бы подкрутить, чтобы от него избавиться

--executor-memory увеличь

17:52пожаловаться #13

ЕГ

Евгений Глотов... in Moscow Spark

Выгружаю питончиком данные из Postgres и делаю из них DataFrame.
Получаю ворненг

20/01/13 16:41:39 WARN TaskSetManager: Stage 597 contains a task of very large size (101634 KB). The maximum recommended task size is 100 KB.

Где бы подкрутить, чтобы от него избавиться

Можно сразу спарком грузить, если есть доступ в данный постгрес с датанод

17:57пожаловаться #14

Nikolay Matkheev in Moscow Spark

Выгружаю питончиком данные из Postgres и делаю из них DataFrame.
Получаю ворненг

20/01/13 16:41:39 WARN TaskSetManager: Stage 597 contains a task of very large size (101634 KB). The maximum recommended task size is 100 KB.

Где бы подкрутить, чтобы от него избавиться

Как вариант, задать logging level в log4j.properties до critical в драйвере через Spark.driver.extraJavaOpts

18:42пожаловаться #15

2020 January 14

Sergej Khakhulin in Moscow Spark

Всем привет, кто нибудь собирал spark 2.4 с hadoop 3.2 и с hive? пытаюсь

./dev/make-distribution.sh --name with-hadoop-3.2.0 --pip --r --tgz -Psparkr,hadoop-3.2,hive,hive-thriftserver,yarn -Dhadoop.version=3.2.0

и онон мне выкидывает ошибки при сборе

Apache Spark. Contribute to apache/spark development by creating an account on GitHub.

13:41пожаловаться #16

Grigory Pomadchin in Moscow Spark

Sergej Khakhulin

Всем привет, кто нибудь собирал spark 2.4 с hadoop 3.2 и с hive? пытаюсь

./dev/make-distribution.sh --name with-hadoop-3.2.0 --pip --r --tgz -Psparkr,hadoop-3.2,hive,hive-thriftserver,yarn -Dhadoop.version=3.2.0

и онон мне выкидывает ошибки при сборе

нет такого профиля https://github.com/apache/spark/blob/v2.4.4/pom.xml#L2710 попробуй hadoop-3.1

GitHub

apache/spark

Apache Spark. Contribute to apache/spark development by creating an account on GitHub.

13:57пожаловаться #17

Sergej Khakhulin in Moscow Spark

Grigory Pomadchin

нет такого профиля https://github.com/apache/spark/blob/v2.4.4/pom.xml#L2710 попробуй hadoop-3.1

GitHub

apache/spark

эмн я опираюсь, на git

13:58пожаловаться #18

Sergej Khakhulin in Moscow Spark

Sergej Khakhulin

эмн я опираюсь, на git

или я что то не так понял

13:58пожаловаться #19

Grigory Pomadchin in Moscow Spark

может у тебя спарк 3? я ссылку на гит дал тебе и спарк 2.4