Size: a a a

2020 January 10

t

tenKe in Moscow Spark
Anton Alekseev
Не помогает, к сожалению. Судя по треду жиры, это проблема не батчей а буфера, который на 2гб.
тогда полагаю увеличение количества воркеров должно помочь
источник

AA

Anton Alekseev in Moscow Spark
Я немного не уловил суть проблемы между максимальным размером партиции и буфера arrow, который может заполнятся, как я понял батчами от партиции любого размера, но упрется только в свои 2 гб.
источник

AA

Anton Alekseev in Moscow Spark
tenKe
тогда полагаю увеличение количества воркеров должно помочь
тоесть идея в уменьшении партиции? А почему репартишн не сделать тогда?))
источник

t

tenKe in Moscow Spark
Anton Alekseev
тоесть идея в уменьшении партиции? А почему репартишн не сделать тогда?))
ну условно если буфер один на воркер, то просто увеличение кол-ва партиций не поможет
источник

AA

Anton Alekseev in Moscow Spark
tenKe
ну условно если буфер один на воркер, то просто увеличение кол-ва партиций не поможет
ааа, понятно.
источник

t

tenKe in Moscow Spark
вообще, у меня опыт с pandas/arrow двоякий - на стабильных версиях проблем почти нет, но есть некоторые сборки и вот на них какие то совершенно мутные ошибки были, вроде твоей
источник

t

tenKe in Moscow Spark
поэтому я бы на твоем месте локально проверил код на разных версиях спарка и эрроу, а потом бы уже емр траблшутил
источник

AA

Anton Alekseev in Moscow Spark
tenKe
поэтому я бы на твоем месте локально проверил код на разных версиях спарка и эрроу, а потом бы уже емр траблшутил
Да, я локально дебажу, чтобы емр не разгонять каждый раз. Попробую обновиться, вот только у нас на новом arrow другие ошибки всплывали, поэтому откатились до 0.14.1. Видимо пора фиксить)
источник

AA

Anton Alekseev in Moscow Spark
tenKe
вообще, у меня опыт с pandas/arrow двоякий - на стабильных версиях проблем почти нет, но есть некоторые сборки и вот на них какие то совершенно мутные ошибки были, вроде твоей
Проверили на всякий с большим числом воркеров и экзекьюторов, падает. Решение внезапно простое, перед pudf откинуть лишние колонки, там их было в 2 раза больше чем нужно, и данные стали пролезать. Тут конечно, сами себе буратины.😔
источник
2020 January 13

ДА

Джумурат Александр... in Moscow Spark
Выгружаю питончиком данные из Postgres и делаю из них DataFrame.
Получаю ворненг 20/01/13 16:41:39 WARN TaskSetManager: Stage 597 contains a task of very large size (101634 KB). The maximum recommended task size is 100 KB.
Где бы подкрутить, чтобы от него избавиться
источник

YG

Yuriy Gavrilov in Moscow Spark
Джумурат Александр
Выгружаю питончиком данные из Postgres и делаю из них DataFrame.
Получаю ворненг 20/01/13 16:41:39 WARN TaskSetManager: Stage 597 contains a task of very large size (101634 KB). The maximum recommended task size is 100 KB.
Где бы подкрутить, чтобы от него избавиться
Может просто закрыть сессию и открыть новую? У вас странно большое кол-во “stage 597”  ...
источник

ДА

Джумурат Александр... in Moscow Spark
Там длинный файпланй с кучей трансформаций. Он нормально работает, не падает - просто ворненги не нравятся
источник

С

Сюткин in Moscow Spark
Джумурат Александр
Выгружаю питончиком данные из Postgres и делаю из них DataFrame.
Получаю ворненг 20/01/13 16:41:39 WARN TaskSetManager: Stage 597 contains a task of very large size (101634 KB). The maximum recommended task size is 100 KB.
Где бы подкрутить, чтобы от него избавиться
--executor-memory увеличь
источник

ЕГ

Евгений Глотов... in Moscow Spark
Джумурат Александр
Выгружаю питончиком данные из Postgres и делаю из них DataFrame.
Получаю ворненг 20/01/13 16:41:39 WARN TaskSetManager: Stage 597 contains a task of very large size (101634 KB). The maximum recommended task size is 100 KB.
Где бы подкрутить, чтобы от него избавиться
Можно сразу спарком грузить, если есть доступ в данный постгрес с датанод
источник

NM

Nikolay Matkheev in Moscow Spark
Джумурат Александр
Выгружаю питончиком данные из Postgres и делаю из них DataFrame.
Получаю ворненг 20/01/13 16:41:39 WARN TaskSetManager: Stage 597 contains a task of very large size (101634 KB). The maximum recommended task size is 100 KB.
Где бы подкрутить, чтобы от него избавиться
Как вариант, задать logging level в log4j.properties до critical в драйвере через Spark.driver.extraJavaOpts
источник
2020 January 14

SK

Sergej Khakhulin in Moscow Spark
Всем привет, кто нибудь собирал spark 2.4 с hadoop 3.2 и с hive? пытаюсь  
./dev/make-distribution.sh --name with-hadoop-3.2.0 --pip --r --tgz -Psparkr,hadoop-3.2,hive,hive-thriftserver,yarn -Dhadoop.version=3.2.0
и онон мне выкидывает ошибки при сборе
источник

GP

Grigory Pomadchin in Moscow Spark
Sergej Khakhulin
Всем привет, кто нибудь собирал spark 2.4 с hadoop 3.2 и с hive? пытаюсь  
./dev/make-distribution.sh --name with-hadoop-3.2.0 --pip --r --tgz -Psparkr,hadoop-3.2,hive,hive-thriftserver,yarn -Dhadoop.version=3.2.0
и онон мне выкидывает ошибки при сборе
нет такого профиля https://github.com/apache/spark/blob/v2.4.4/pom.xml#L2710 попробуй hadoop-3.1
источник

SK

Sergej Khakhulin in Moscow Spark
эмн я опираюсь, на git
источник

SK

Sergej Khakhulin in Moscow Spark
Sergej Khakhulin
эмн я опираюсь, на git
или я что то не так понял
источник

GP

Grigory Pomadchin in Moscow Spark
может у тебя спарк 3? я ссылку на гит дал тебе и спарк 2.4
источник