Телеграмм чат группы moscowspark страница 234

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Moscow Spark

872 membersпожаловаться на группу

2019 December 12

MB

Max Bartenev in Moscow Spark

Eldar Nezametdinov

Добрый день, чатик.
Вы когда запускаете аппликейшн (spark-submit) с virtualenv на Sparke, используете:
1.--archives environment.tar.gz#environment и PYSPARK_DRIVER_PYTHON, PYSPARK_PYTHON?
(то есть отправляете environment по нодам)
2. или у вас уже разархивирован _virtualenv_ на нодах (через ансибл например), и просто прописываете путь: spark.pyspark.virtualenv.bin.path, spark.yarn.appMasterEnv.PYSPARK_PYTHON и тд?
(то есть заранее установлен, только запускаете)
-
вроде как вариант с отправкой tar выглядит красиво?
но я вообще ни разу так не делал...

Мы у себя вот такую штуку используем: https://community.cloudera.com/t5/Community-Articles/Using-VirtualEnv-with-PySpark/ta-p/245905

Using VirtualEnv with PySpark

Introduction For a simple PySpark application, you can use `--py-files` to specify its dependencies. A large PySpark application will have many dependencies, possibly including transitive dependencies. Sometimes a large application needs a Python package that has C code to compile before installatio...

источник

15:32пожаловаться #1

MB

Max Bartenev in Moscow Spark

Работает нормально, заранее ничего подготавливать не надо, virtualenv собирается на всех нодах при старте джобы

источник

15:33пожаловаться #2

A

Anton Lebedevich in Moscow Spark

вот вам ресурсов не жалко, на каждую жобу собирать всё

источник

15:34пожаловаться #3

MB

Max Bartenev in Moscow Spark

Вариант с archive подойдёт не для всех зависимостей, потому что если зависимость собирала бинари при установке с помощью gcc, например, то они могут не запуститься на других нодах

источник

15:34пожаловаться #4

2019 December 21

C

Combot in Moscow Spark

Recommended has been banned! Reason: CAS ban.

источник

09:12пожаловаться #5

C

Combot in Moscow Spark

Recommended has been banned! Reason: CAS ban.

источник

09:15пожаловаться #6

2019 December 25

I

Ilya in Moscow Spark

Max Bartenev

Мы у себя вот такую штуку используем: https://community.cloudera.com/t5/Community-Articles/Using-VirtualEnv-with-PySpark/ta-p/245905

Using VirtualEnv with PySpark

Introduction For a simple PySpark application, you can use `--py-files` to specify its dependencies. A large PySpark application will have many dependencies, possibly including transitive dependencies. Sometimes a large application needs a Python package that has C code to compile before installatio...

А это работает на Amazon EMR? 🤔

источник

10:46пожаловаться #7

K

KrivdaTheTriewe in Moscow Spark

А кто как оптимизировал большое количество одинаковых источников одинаковвх, чтобы драйверу полегче было. есть очень много spark.load.jdbc к одной и той же таблице, но с разным query , и оно потом всё это добро юнионится. Кто-нибудь подобные штуки оптимизировал? , чтобы он на каждый spark.read.jdbc не делал по запросу, а то на драйвере это добро оч много времени забирает.

источник

14:22пожаловаться #8

DZ

Dmitry Zuev in Moscow Spark

как ты себе это представляешь?

источник

14:22пожаловаться #9

DZ

Dmitry Zuev in Moscow Spark

точнее я не понял в чем траблы

источник

14:23пожаловаться #10

DZ

Dmitry Zuev in Moscow Spark

типа грузить параллельно по jdbc?

источник

14:23пожаловаться #11

K

KrivdaTheTriewe in Moscow Spark

как ты себе это представляешь?

val load = queries
.map { x =>
UIO(unsafeExecuteSqlQuery(x.query, source))
}

def unsafeExecuteSqlQuery(query,source) = { .... spark.read.format(jdbcFormat).options(ops).load() }

источник

14:26пожаловаться #12

DZ

Dmitry Zuev in Moscow Spark

аа, значит я правильно тебя понял

источник

14:27пожаловаться #13

K

KrivdaTheTriewe in Moscow Spark

мне к сожалению нужно генерировать запросы к jdbc самому, но на 1000 запросах я тупо полтора часа драйвер жду

источник

14:28пожаловаться #14

K

KrivdaTheTriewe in Moscow Spark

когда он тысячу раз сходит и посмотрит на источник

источник

14:28пожаловаться #15

DZ

Dmitry Zuev in Moscow Spark

может сначала вытащить вкудато

источник

14:29пожаловаться #16

DZ

Dmitry Zuev in Moscow Spark

а дальше спарк натравить

источник

14:29пожаловаться #17

DZ

Dmitry Zuev in Moscow Spark

условно через bash+sqoop

источник

14:29пожаловаться #18

K

KrivdaTheTriewe in Moscow Spark

скуп для этого источника не работает

источник

14:33пожаловаться #19

DZ

Dmitry Zuev in Moscow Spark

эм, но jdbc

источник

14:35пожаловаться #20