Size: a a a

2021 January 22

ВК

Вячеслав Колосков... in Moscow Spark
в частности использую библиотеку pyspark.ml
источник

ВК

Вячеслав Колосков... in Moscow Spark
драйевер под 200г, экзекютров 50
источник

ВК

Вячеслав Колосков... in Moscow Spark
по 8 гиг на каждый
источник

ВК

Вячеслав Колосков... in Moscow Spark
версия спарка 2.3.1
источник

ПФ

Паша Финкельштейн... in Moscow Spark
На логах экзекьюторов должны быть эксепшны, посмотри плз
источник

ВК

Вячеслав Колосков... in Moscow Spark
на нодах нашел только такую строчку
WARN Client: Exception encountered while connecting to the server : org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.ipc.StandbyException): Operation category READ is not supported in state standby.
источник

AS

Andrey Smirnov in Moscow Spark
Вячеслав Колосков
Добрый день.
Подскажите, что за ошибка  Answer from Java side is empty ?
это только на этой задаче?
у меня было подобное когда версии PyArrow расходились
источник

ВК

Вячеслав Колосков... in Moscow Spark
Andrey Smirnov
это только на этой задаче?
у меня было подобное когда версии PyArrow расходились
ну пока я конкретно эту ошибку вижу только на одной таске
источник

ВК

Вячеслав Колосков... in Moscow Spark
при этом аналогичные таски на других данных работают норм
источник

ВК

Вячеслав Колосков... in Moscow Spark
Вячеслав Колосков
на нодах нашел только такую строчку
WARN Client: Exception encountered while connecting to the server : org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.ipc.StandbyException): Operation category READ is not supported in state standby.
вот еще интересные сообщения
21/01/22 14:30:39 WARN TransportChannelHandler: Exception in connection from /10.42.101.151:44164
java.io.IOException: Connection reset by peer
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Оооо. Может у тебя экзекьюторы умирают?
источник

ВК

Вячеслав Колосков... in Moscow Spark
21/01/22 14:30:37 WARN BlockManagerMasterEndpoint: No more replicas available for rdd_93_18 !
21/01/22 14:30:37 WARN BlockManagerMasterEndpoint: No more replicas available for rdd_2895_0 !
21/01/22 14:30:37 WARN BlockManagerMasterEndpoint: No more replicas available for rdd_93_118 !
источник

ВК

Вячеслав Колосков... in Moscow Spark
WARN YarnAllocator: Container marked as failed: container_e100_1610953947560_3445_01_000052 on host: ——. Exit status: 143. Diagnostics: Container killed on request. Exit code is 143
Container exited with a non-zero exit code 143
Killed by external signal
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Вооот
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Проблема вовсе и не в питоне даже. Дальше надо разбираться кто тебя убивает. Ставлю на oomkiller
источник

ВК

Вячеслав Колосков... in Moscow Spark
памяти докинуть на эксзекютеры?
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Надо разобраться кто и почему убил
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Логи на нодах посмотреть
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Может у вас память оверселлится?
источник

ВК

Вячеслав Колосков... in Moscow Spark
а что это?
spark.executor.memoryOverhead в спарк-сабмите задаю
источник