Size: a a a

2021 March 23

AB

Anton Bukreev in Moscow Spark
при запуске джобы
источник

AS

Andrey Smirnov in Moscow Spark
Anton Bukreev
Кто сталкивался с ошибкой pyspark
Exception in thread "main" java.lang.RuntimeException: [download failed: commons-io#commons-io;2.6!commons-io.jar]
Пробовал версии 2.4.7 и 2.4.1
нет jar/не настроены пути
источник

AB

Anton Bukreev in Moscow Spark
а куда пути должны быть? SPARK_HOME, HADOOP_HOME установлены , Java в path добавлена.
источник

AB

Anton Bukreev in Moscow Spark
spark-shell работает
источник

AS

Andrey Smirnov in Moscow Spark
а в чем запускаете спарк?
источник

AB

Anton Bukreev in Moscow Spark
в VScode, Windows 10 Pro
источник

AS

Andrey Smirnov in Moscow Spark
standalone?
источник

AB

Anton Bukreev in Moscow Spark
да
источник

AB

Anton Bukreev in Moscow Spark
запускаю как python file и там определяю зависимость com.databricks:spark-xml, если  убрать этот код, то все работает.
packages = "com.databricks:spark-xml_2.11:0.9.0"
os.environ["PYSPARK_SUBMIT_ARGS"] = (
   "--packages {0} pyspark-shell".format(packages)
)

Попробую сейчас через spark-submit запустить
источник

AB

Anton Bukreev in Moscow Spark
Видимо действительно почему-то не видит спарк,  падает с ошибкой
Exception in thread "main" org.apache.spark.SparkException: Cannot load main class from JAR file:/C:/
источник

AB

Anton Bukreev in Moscow Spark
В общем проблема решилась переходом от com.databricks:spark-xml_2.11:0.9.0 на com.databricks:spark-xml_2.11:0.12.0
источник

V

Valent in Moscow Spark
Коллеги, рекомендуте связку spark streaming +kafka для hadoop?
источник

ЕГ

Евгений Глотов... in Moscow Spark
Valent
Коллеги, рекомендуте связку spark streaming +kafka для hadoop?
Ну, варианта два - либо спарк стриминг, либо флинк, выбор из этих двух архитектором обычно происходит по религиозным причинам)
источник

ЕГ

Евгений Глотов... in Moscow Spark
Спарк стриминг можно на питоне и сразу в датафреймы, ниже порог входа
источник

ЕГ

Евгений Глотов... in Moscow Spark
Плюс криво, но всё же работает с керберизированной кафкой и хадупом
источник

ЕГ

Евгений Глотов... in Moscow Spark
Насчёт флинка не знаю точно, вроде тоже должно это быть там
источник

AB

Andrey Bel in Moscow Spark
Евгений Глотов
Насчёт флинка не знаю точно, вроде тоже должно это быть там
на спарк стриминг сложно разрабов найти в флинк еще сложее))
источник

AB

Andrey Bel in Moscow Spark
во флинке  тоже можно сразу в кейсклассы матчить
источник

AB

Andrey Bel in Moscow Spark
типа датасета спаркового
источник

ЕГ

Евгений Глотов... in Moscow Spark
Andrey Bel
во флинке  тоже можно сразу в кейсклассы матчить
Но это всё-таки не sql, как в структурном стриминге)
источник