Size: a a a

2019 December 12

MB

Max Bartenev in Moscow Spark
Eldar Nezametdinov
Добрый день, чатик.
Вы когда запускаете аппликейшн (spark-submit) с virtualenv на Sparke, используете:
1.--archives environment.tar.gz#environment и PYSPARK_DRIVER_PYTHON, PYSPARK_PYTHON?
(то есть отправляете  environment по нодам)
2. или у вас уже разархивирован _virtualenv_ на нодах (через ансибл например), и просто прописываете путь: spark.pyspark.virtualenv.bin.path, spark.yarn.appMasterEnv.PYSPARK_PYTHON и тд?
(то есть заранее установлен, только запускаете)
-
вроде как вариант с отправкой tar выглядит красиво?
но я вообще ни разу так не делал...
Мы у себя вот такую штуку используем: https://community.cloudera.com/t5/Community-Articles/Using-VirtualEnv-with-PySpark/ta-p/245905
источник

MB

Max Bartenev in Moscow Spark
Работает нормально, заранее ничего подготавливать не надо, virtualenv собирается на всех нодах при старте джобы
источник

A

Anton Lebedevich in Moscow Spark
вот вам ресурсов не жалко, на каждую жобу собирать всё
источник

MB

Max Bartenev in Moscow Spark
Вариант с archive подойдёт не для всех зависимостей, потому что если зависимость собирала бинари при установке с помощью gcc, например, то они могут не запуститься на других нодах
источник
2019 December 21

C

Combot in Moscow Spark
Recommended has been banned! Reason: CAS ban.
источник

C

Combot in Moscow Spark
Recommended has been banned! Reason: CAS ban.
источник
2019 December 25

I

Ilya in Moscow Spark
А это работает на Amazon EMR? 🤔
источник

K

KrivdaTheTriewe in Moscow Spark
А кто как оптимизировал большое количество одинаковых источников одинаковвх, чтобы драйверу полегче было. есть очень много spark.load.jdbc к одной и той же таблице, но с разным query , и оно потом всё это добро юнионится. Кто-нибудь подобные штуки оптимизировал? , чтобы он на каждый spark.read.jdbc не делал по запросу, а  то на драйвере это добро оч много времени забирает.
источник

DZ

Dmitry Zuev in Moscow Spark
как ты себе это представляешь?
источник

DZ

Dmitry Zuev in Moscow Spark
точнее  я не понял в чем траблы
источник

DZ

Dmitry Zuev in Moscow Spark
типа грузить параллельно по jdbc?
источник

K

KrivdaTheTriewe in Moscow Spark
Dmitry Zuev
как ты себе это представляешь?
val load = queries
     .map { x =>
       UIO(unsafeExecuteSqlQuery(x.query, source))
     }

def unsafeExecuteSqlQuery(query,source) = { ....   spark.read.format(jdbcFormat).options(ops).load() }
источник

DZ

Dmitry Zuev in Moscow Spark
аа, значит я правильно тебя понял
источник

K

KrivdaTheTriewe in Moscow Spark
мне к сожалению нужно генерировать запросы к jdbc самому, но на 1000 запросах я тупо полтора часа драйвер жду
источник

K

KrivdaTheTriewe in Moscow Spark
когда он тысячу раз сходит и посмотрит на источник
источник

DZ

Dmitry Zuev in Moscow Spark
может сначала вытащить вкудато
источник

DZ

Dmitry Zuev in Moscow Spark
а дальше спарк натравить
источник

DZ

Dmitry Zuev in Moscow Spark
условно через bash+sqoop
источник

K

KrivdaTheTriewe in Moscow Spark
скуп для этого источника не работает
источник

DZ

Dmitry Zuev in Moscow Spark
эм, но jdbc
источник