Size: a a a

2020 January 14

GP

Grigory Pomadchin in Moscow Spark
И как собирал? Это с каким профилем?
источник

SK

Sergej Khakhulin in Moscow Spark
Причём дропает когда все посчитал, когда хочет вернуть результат
источник

SK

Sergej Khakhulin in Moscow Spark
Grigory Pomadchin
И как собирал? Это с каким профилем?
Дойду до дома, напишу точно команду, а так 2мя с хайвом и сривтом, скалой 2.12 с халупом3.1/без него
источник
2020 January 15

РП

Роман Пашкевич... in Moscow Spark
Коллеги, добрый день.
А кто нибудь коннектился Spark'ом к HANA?

Прописал ему
spark = (
   SparkSession
       .builder
       .config("spark.jars", "/home/local/*/HANA_jdbc_driver.jar")

Коннект создается без ошибок,
Потом пробую считать таблицу:

DF = spark.read.jdbc("jdbc:sap://url:30215", "table", properties={'user': user, 'password': pas})

И получаю ошибку:
Py4JJavaError: An error occurred while calling o273.jdbc.
: java.sql.SQLException: No suitable driver
источник

DZ

Dmitry Zuev in Moscow Spark
залоади гденибудь
источник

DZ

Dmitry Zuev in Moscow Spark
.option("driver", "org.HANA.Driver")
источник

DZ

Dmitry Zuev in Moscow Spark
или что нибудь такое если питон
источник

РП

Роман Пашкевич... in Moscow Spark
да, питон
источник

РП

Роман Пашкевич... in Moscow Spark
Не нравится ему org.HANA.Driver
Py4JJavaError: An error occurred while calling o336.load.
: java.lang.ClassNotFoundException: org.HANA.Driver
источник

DZ

Dmitry Zuev in Moscow Spark
это ж пример
источник

DZ

Dmitry Zuev in Moscow Spark
ты туда своё имя класса пропиши
источник

РП

Роман Пашкевич... in Moscow Spark
*.jar достаточно положить локально на ноду?
источник

DZ

Dmitry Zuev in Moscow Spark
нужны джарники, нужно прописать их в сессию, нужно указать драйвер при read/write
источник

SK

Sergej Khakhulin in Moscow Spark
кто-нибудь при сборке с таким сталкивался?
* creating vignettes ... ERROR

Attaching package: 'SparkR'

The following objects are masked from 'package:stats':

   cov, filter, lag, na.omit, predict, sd, var, window

The following objects are masked from 'package:base':

   as.data.frame, colnames, colnames<-, drop, endsWith, intersect,
   rank, rbind, sample, startsWith, subset, summary, transform, union

Picked up _JAVA_OPTIONS: -XX:-UsePerfData
Picked up _JAVA_OPTIONS: -XX:-UsePerfData
Error: A JNI error has occurred, please check your installation and try again
Exception in thread "main" java.lang.NoClassDefFoundError: org/slf4j/Logger
       at java.lang.Class.getDeclaredMethods0(Native Method)
       at java.lang.Class.privateGetDeclaredMethods(Class.java:2701)
       at java.lang.Class.privateGetMethodRecursive(Class.java:3048)
       at java.lang.Class.getMethod0(Class.java:3018)
       at java.lang.Class.getMethod(Class.java:1784)
       at sun.launcher.LauncherHelper.validateMainClass(LauncherHelper.java:544)
       at sun.launcher.LauncherHelper.checkAndLoadMain(LauncherHelper.java:526)
Caused by: java.lang.ClassNotFoundException: org.slf4j.Logger
       at java.net.URLClassLoader.findClass(URLClassLoader.java:382)
       at java.lang.ClassLoader.loadClass(ClassLoader.java:418)
       at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:352)
       at java.lang.ClassLoader.loadClass(ClassLoader.java:351)
       ... 7 more
Quitting from lines 79-81 (sparkr-vignettes.Rmd)
Error: processing vignette 'sparkr-vignettes.Rmd' failed with diagnostics:
JVM is not ready after 10 seconds
Execution halted


Собирал
./dev/make-distribution.sh --name with-hive --pip --r --tgz -Phadoop-provided,sparkr,hive,hive-thriftserver,yarn -Pscala-2.12 -DskipTests
источник

РП

Роман Пашкевич... in Moscow Spark
Коллеги, спарководы.
А правильно ли я понимаю?

Имеем таблицу в HANA в 3+ млрд строк.

При попытке spark.read.load(), а потом spark.sql(select * from table where day = '2020-01-01').show()   (там партиция в 20тыс строк)

Спарк сначала в себя попробует всосать все 3+ млрд строк, и потом уже найти нужные данные по дате?
источник

РП

Роман Пашкевич... in Moscow Spark
Ибо валится он радостно с ошибкой "search table error:  [2598] column search intermediate result exceeds 2 billion rows limitation"
источник

AS

Andrey Smirnov in Moscow Spark
Роман Пашкевич
Коллеги, спарководы.
А правильно ли я понимаю?

Имеем таблицу в HANA в 3+ млрд строк.

При попытке spark.read.load(), а потом spark.sql(select * from table where day = '2020-01-01').show()   (там партиция в 20тыс строк)

Спарк сначала в себя попробует всосать все 3+ млрд строк, и потом уже найти нужные данные по дате?
а что в плане запроса, есть push filter?
источник

РП

Роман Пашкевич... in Moscow Spark
Andrey Smirnov
а что в плане запроса, есть push filter?
пока не было.

Но вот читаю доку, и вижу что есть возможность не просто считать таблицу. А сразу с подзапросом

spark.read.format("jdbc")
.option("url", jdbcUrl)
.option("query", "select c1, c2 from t1")
.load()
источник

AS

Andrey Smirnov in Moscow Spark
Роман Пашкевич
пока не было.

Но вот читаю доку, и вижу что есть возможность не просто считать таблицу. А сразу с подзапросом

spark.read.format("jdbc")
.option("url", jdbcUrl)
.option("query", "select c1, c2 from t1")
.load()
если не было, то пытается все вычитать
источник

N

Nikolay in Moscow Spark
Это должна ваша хана уметь пушить предикаты
источник