Телеграмм чат группы moscowspark страница 433

Попробую обрисовать задачу. Есть 10 паркет файлов 5 гб , и спарк с кучей ресурсов. Мне кажется что работают не все. Что надо сделать чтобы все ресурсы тратились на задачу и отрабатывали менее чем за секунды? Принудительно в скрипте грантовать ресурсы?

источник

23:53пожаловаться #6

ПФ

Паша Финкельштейн... in Moscow Spark

Повелитель Бури

Попробую обрисовать задачу. Есть 10 паркет файлов 5 гб , и спарк с кучей ресурсов. Мне кажется что работают не все. Что надо сделать чтобы все ресурсы тратились на задачу и отрабатывали менее чем за секунды? Принудительно в скрипте грантовать ресурсы?

Очередь в ярне настроить так, чтобы отдавал всё ресурсы задаче. И убедиться что Спарк требует все ресурсы )))

источник

23:54пожаловаться #7

ПБ

Повелитель Бури... in Moscow Spark

Паша Финкельштейн

Очередь в ярне настроить так, чтобы отдавал всё ресурсы задаче. И убедиться что Спарк требует все ресурсы )))

А как убедиться? Я зашел в spark ui он потратил 1 ядро и 300мб памяти..

источник

23:55пожаловаться #8

2020 September 03

ЕГ

Евгений Глотов... in Moscow Spark

Повелитель Бури

Попробую обрисовать задачу. Есть 10 паркет файлов 5 гб , и спарк с кучей ресурсов. Мне кажется что работают не все. Что надо сделать чтобы все ресурсы тратились на задачу и отрабатывали менее чем за секунды? Принудительно в скрипте грантовать ресурсы?

Уменьшить размер одного таска на чтение данных, таким образом вырастет число тасков
Но никак не может быть спарком на чтение 5гб один таск создан, как минимум будет 5*1024/128 = 40 тасков. Если они все работают в одном экзекуторе с одним ядром, а ресурсы в ярне простаивают, значит настройки ярна или спарка неправильные, скорее всего и того, и другого

источник

02:21пожаловаться #9

2020 September 04

AC

Anton Chern in Moscow Spark

Всем привет, подскажите, пожалуйста, как грамотно подключить jdbc-driver для clickhouse в pyspark 2.4.0

источник

14:43пожаловаться #10

DZ

Dmitry Zuev in Moscow Spark

а в чем вопрос?

источник

14:44пожаловаться #11

DZ

Dmitry Zuev in Moscow Spark

какой конкретно драйвер?

источник

14:44пожаловаться #12

AC

Anton Chern in Moscow Spark

Dmitry Zuev

а в чем вопрос?

есть файл clickhouse-jdbc-0.2.jar, хочется его как-то передать pyspark, чтобы писать в clickhouse по определенному ip dataframe

источник

14:53пожаловаться #13

DZ

Dmitry Zuev in Moscow Spark

ну так же как любой jdbc драйвер собсна

источник

14:54пожаловаться #14

AC

Anton Chern in Moscow Spark

Dmitry Zuev

ну так же как любой jdbc драйвер собсна

пробовал как здесь: https://stackoverflow.com/questions/46925864/how-to-add-jdbc-drivers-to-classpath-when-using-pyspark, но выкидывает ошибку

Stack Overflow

How to add jdbc drivers to classpath when using PySpark?

How / where do I install the jdbc drivers for spark sql? I'm running the all-spark-notebook docker image, and am trying to pull some data directly from a sql database into spark.

From what I can t...

источник

14:56пожаловаться #15

DZ

Dmitry Zuev in Moscow Spark

отлично, какую ошибку?

источник

14:57пожаловаться #16

AC

Anton Chern in Moscow Spark

Dmitry Zuev

отлично, какую ошибку?

py4j.protocol.Py4JJavaError: An error occurred while calling o86.parquet.
: org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 0.0 failed 4 times, most recent failure: Lost task 0.3 in stage 0.0 (TID 3, udrvsa-dn55p.passport.local, executor 12): java.lang.IllegalArgumentException: java.net.UnknownHostException: path

источник

15:08пожаловаться #17

DZ

Dmitry Zuev in Moscow Spark

в ошибке же чутко написано что нет так

источник

15:08пожаловаться #18

IV

Ilya Vanin in Moscow Spark

Anton Chern

есть файл clickhouse-jdbc-0.2.jar, хочется его как-то передать pyspark, чтобы писать в clickhouse по определенному ip dataframe

В pyspark я просто указываю перед запуском Spark-сессии системную переменную как:

import os
os.environ['PYSPARK_SUBMIT_ARGS'] = '--driver-class-path /path/to/jar/folder/* --jars /path/to/jar/folder/* pyspark-shell'

источник

15:10пожаловаться #19

DZ

Dmitry Zuev in Moscow Spark

java.net.UnknownHostException: path

источник

15:11пожаловаться #20