Телеграмм чат группы moscowspark страница 444

Всем привет.
Можно ли как-то включать\отключать spark.speculation на уровне job? (а в идеале на уровне stage - я готов поиграть немного с execution plan)
У нас есть job, который пишет в RDBMS и когда spark.speculation = true, он активно создает дубли.
Но и отключить ее не хочется, так как она помогает в других job(ах) в этом приложении.
Что думаете?

источник

08:16пожаловаться #7

Andrey Prokhorov in Moscow Spark

Столкнулись с интересной проблемой. Фильтруем из огромной таблицы месяц, и записываем в отдельную таблицу. Операцию выполняем через Spark SQL. PySpark отрабатывает без проблем, а вот Scala Spark стартует нормально, но довольно быстро зависает намертво. При этом Spark UI не может открыть интерфейс задания. Конфиг одинаковый. В чем может быть проблема?

источник

09:48пожаловаться #8

Roman in Moscow Spark

Наблюдал подобные зависания, когда броадкастился датасет >1GB. Может это поможет :)

источник

11:09пожаловаться #9

Roman in Moscow Spark

Но скорее всего нет

источник

11:10пожаловаться #10

Andrey Prokhorov in Moscow Spark

Roman

Наблюдал подобные зависания, когда броадкастился датасет >1GB. Может это поможет :)

Запрос прост до безумия, отбор колонок и фильтр по дате.

источник

11:10пожаловаться #11

Andrey Prokhorov in Moscow Spark

В целом понятно, что какое-то взаимодействие в Спарк его перегружает. Но странно что этого не наблюдается в PySpark. Единственное что хоть немного помогло - кастомные настройки GC на драйвере и экзекьютере. Но это помогает лишь оттянуть момент зависания намертво.

источник

11:13пожаловаться #12

ИГ

Игорь Гомановский... in Moscow Spark

Andrey Prokhorov

Запрос прост до безумия, отбор колонок и фильтр по дате.

Если результат метода DataFrame.explain() не вызывает у вас подозрений, то может быть дело в самой сессии? Вы уверены, что у вас параметры сессии (память на executor, например) одинаковые в python и в scala варианте?

источник

11:25пожаловаться #13

Andrey Prokhorov in Moscow Spark

Те, что я выставляю самостоятельно, одинаковые, на всякий случай проверю те, что выставляются по умолчанию

источник

11:26пожаловаться #14

Andrey Prokhorov in Moscow Spark

объем памяти да, точно одинаков и на драйвере и на экзекьютере в scala и python

источник

11:27пожаловаться #15

Алексей in Moscow Spark

Andrey Prokhorov

попробуйте сделать стэк трейс java процессов: JCMD Thread.print или https://github.com/brendangregg/FlameGraph , чтобы хотя бы понять на каком месте висит

GitHub

brendangregg/FlameGraph

Stack trace visualizer. Contribute to brendangregg/FlameGraph development by creating an account on GitHub.