Size: a a a

2020 September 15

A

Artem in Moscow Spark
Да, я о 2х дц
источник

N

Nikolay in Moscow Spark
У нас 3 ЗК в 3х ДЦ и 4 брокера в 2х.
источник
2020 September 17

ND

Nikita Dushakov in Moscow Spark
Коллеги, добрый день
Не подскажете, где взять .jar файл, который нужно подключить к pyspark для работы с oracle?
источник

DZ

Dmitry Zuev in Moscow Spark
в мавене
источник

ME

Mikhail Epikhin in Moscow Spark
источник

T

T in Moscow Spark
Переслано от T
Привет, а есть возможно как то пошарить закешированый датафрейм между пулами при spark.scheduler.mode FAIR ?
источник
2020 September 18

A

Alex in Moscow Spark
Всем привет.
Можно ли как-то включать\отключать spark.speculation на уровне job? (а в идеале на уровне stage - я готов поиграть немного с execution plan)
У нас есть job, который пишет в RDBMS и когда spark.speculation = true, он активно создает дубли.
Но и отключить ее не хочется, так как она помогает в других job(ах) в этом приложении.
Что думаете?
источник

AP

Andrey Prokhorov in Moscow Spark
Столкнулись с интересной проблемой. Фильтруем из огромной таблицы месяц, и записываем в отдельную таблицу. Операцию выполняем через Spark SQL. PySpark отрабатывает без проблем, а вот Scala Spark стартует нормально, но довольно быстро зависает намертво. При этом Spark UI не может открыть интерфейс задания. Конфиг одинаковый. В чем может быть проблема?
источник

R

Roman in Moscow Spark
Наблюдал подобные зависания, когда броадкастился датасет >1GB. Может это поможет :)
источник

R

Roman in Moscow Spark
Но скорее всего нет
источник

AP

Andrey Prokhorov in Moscow Spark
Roman
Наблюдал подобные зависания, когда броадкастился датасет >1GB. Может это поможет :)
Запрос прост до безумия, отбор колонок и фильтр по дате.
источник

AP

Andrey Prokhorov in Moscow Spark
В целом понятно, что какое-то взаимодействие в Спарк его перегружает. Но странно что этого не наблюдается в PySpark. Единственное что хоть немного помогло - кастомные настройки GC на драйвере и экзекьютере. Но это помогает лишь оттянуть момент зависания намертво.
источник

ИГ

Игорь Гомановский... in Moscow Spark
Andrey Prokhorov
Запрос прост до безумия, отбор колонок и фильтр по дате.
Если результат метода DataFrame.explain() не вызывает у вас подозрений, то может быть дело в самой сессии? Вы уверены, что у вас параметры сессии (память на executor, например) одинаковые в python и в scala варианте?
источник

AP

Andrey Prokhorov in Moscow Spark
Те, что я выставляю самостоятельно, одинаковые, на всякий случай проверю те, что выставляются по умолчанию
источник

AP

Andrey Prokhorov in Moscow Spark
объем памяти да, точно одинаков и на драйвере и на экзекьютере в scala и python
источник

А

Алексей in Moscow Spark
Andrey Prokhorov
Столкнулись с интересной проблемой. Фильтруем из огромной таблицы месяц, и записываем в отдельную таблицу. Операцию выполняем через Spark SQL. PySpark отрабатывает без проблем, а вот Scala Spark стартует нормально, но довольно быстро зависает намертво. При этом Spark UI не может открыть интерфейс задания. Конфиг одинаковый. В чем может быть проблема?
попробуйте сделать стэк трейс java процессов: JCMD Thread.print  или https://github.com/brendangregg/FlameGraph , чтобы хотя бы понять на каком месте висит
источник

IK

Ilya Kozyrev in Moscow Spark
Привет. Кто-то знает что лежит под google data flow? Юзают beam как SDK, а на чем процессится в итоге?
источник

DZ

Dmitry Zuev in Moscow Spark
На своей редьюселке
источник

IK

Ilya Kozyrev in Moscow Spark
проперитарщина? Модель работы странно что нигде не описана. Оно спаркоподобное?
источник

DZ

Dmitry Zuev in Moscow Spark
Как бэ да. Хадуп МР вышел из пейпера Гугла
источник