Size: a a a

2020 September 02

GP

Grigory Pomadchin in Moscow Spark
Mikhail Epikhin
ну блин, не всем нужен mllib, но его же пихают везде
отдельная депенся
источник

M

Mi in Moscow Spark
Что мешает нужную версию кафки запаковать в архив с кодом
источник

ME

Mikhail Epikhin in Moscow Spark
Mi
Что мешает нужную версию кафки запаковать в архив с кодом
ничего, просто я удивлен что в репе написан код, он никак не отличаается от версии к версии
источник

Sa

Salam andra in Moscow Spark
Mikhail Epikhin
ничего, просто я удивлен что в репе написан код, он никак не отличаается от версии к версии
С другой стороны удобно тебе не нужно думать какую версию либы spark kafka использовать например для spark 2.4
источник

ME

Mikhail Epikhin in Moscow Spark
Salam andra
С другой стороны удобно тебе не нужно думать какую версию либы spark kafka использовать например для spark 2.4
ну вот я думаю просто его положить в сам спарк дистр и не думать
источник

ПБ

Повелитель Бури... in Moscow Spark
Alexander Salkov
На History Server UI нажмите и там то, о чем писали.
Попробую обрисовать задачу.  Есть 10 паркет файлов 5 гб , и спарк с кучей ресурсов. Мне кажется что работают не все. Что надо сделать чтобы все ресурсы тратились на  задачу и отрабатывали менее чем за секунды?  Принудительно в скрипте грантовать ресурсы?
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Повелитель Бури
Попробую обрисовать задачу.  Есть 10 паркет файлов 5 гб , и спарк с кучей ресурсов. Мне кажется что работают не все. Что надо сделать чтобы все ресурсы тратились на  задачу и отрабатывали менее чем за секунды?  Принудительно в скрипте грантовать ресурсы?
Очередь в ярне настроить так, чтобы отдавал всё ресурсы задаче. И убедиться что Спарк требует все ресурсы )))
источник

ПБ

Повелитель Бури... in Moscow Spark
Паша Финкельштейн
Очередь в ярне настроить так, чтобы отдавал всё ресурсы задаче. И убедиться что Спарк требует все ресурсы )))
А как убедиться? Я зашел в spark  ui он потратил 1 ядро и 300мб памяти..
источник
2020 September 03

ЕГ

Евгений Глотов... in Moscow Spark
Повелитель Бури
Попробую обрисовать задачу.  Есть 10 паркет файлов 5 гб , и спарк с кучей ресурсов. Мне кажется что работают не все. Что надо сделать чтобы все ресурсы тратились на  задачу и отрабатывали менее чем за секунды?  Принудительно в скрипте грантовать ресурсы?
Уменьшить размер одного таска на чтение данных, таким образом вырастет число тасков
Но никак не может быть спарком на чтение 5гб один таск создан, как минимум будет 5*1024/128 = 40 тасков. Если они все работают в одном экзекуторе с одним ядром, а ресурсы в ярне простаивают, значит настройки ярна или спарка неправильные, скорее всего и того, и другого
источник
2020 September 04

AC

Anton Chern in Moscow Spark
Всем привет, подскажите, пожалуйста, как грамотно подключить  jdbc-driver для clickhouse в pyspark 2.4.0
источник

DZ

Dmitry Zuev in Moscow Spark
а в чем вопрос?
источник

DZ

Dmitry Zuev in Moscow Spark
какой конкретно драйвер?
источник

AC

Anton Chern in Moscow Spark
Dmitry Zuev
а в чем вопрос?
есть файл clickhouse-jdbc-0.2.jar, хочется его как-то передать pyspark, чтобы писать в clickhouse по определенному ip dataframe
источник

DZ

Dmitry Zuev in Moscow Spark
ну так же как любой jdbc драйвер собсна
источник

AC

Anton Chern in Moscow Spark
Dmitry Zuev
ну так же как любой jdbc драйвер собсна
пробовал как здесь: https://stackoverflow.com/questions/46925864/how-to-add-jdbc-drivers-to-classpath-when-using-pyspark, но выкидывает ошибку
источник

DZ

Dmitry Zuev in Moscow Spark
отлично, какую ошибку?
источник

AC

Anton Chern in Moscow Spark
Dmitry Zuev
отлично, какую ошибку?
py4j.protocol.Py4JJavaError: An error occurred while calling o86.parquet.
: org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 0.0 failed 4 times, most recent failure: Lost task 0.3 in stage 0.0 (TID 3, udrvsa-dn55p.passport.local, executor 12): java.lang.IllegalArgumentException: java.net.UnknownHostException: path
источник

DZ

Dmitry Zuev in Moscow Spark
в ошибке же чутко написано что нет так
источник

IV

Ilya Vanin in Moscow Spark
Anton Chern
есть файл clickhouse-jdbc-0.2.jar, хочется его как-то передать pyspark, чтобы писать в clickhouse по определенному ip dataframe
В pyspark я просто указываю перед запуском Spark-сессии системную переменную как:

import os
os.environ['PYSPARK_SUBMIT_ARGS'] = '--driver-class-path /path/to/jar/folder/* --jars /path/to/jar/folder/* pyspark-shell'
источник

DZ

Dmitry Zuev in Moscow Spark
java.net.UnknownHostException: path
источник