Телеграмм чат группы moscowspark страница 244

Коллеги, добрый день.
А кто нибудь коннектился Spark'ом к HANA?

Прописал ему
spark = (
SparkSession
.builder
.config("spark.jars", "/home/local/*/HANA_jdbc_driver.jar")

Коннект создается без ошибок,
Потом пробую считать таблицу:

DF = spark.read.jdbc("jdbc:sap://url:30215", "table", properties={'user': user, 'password': pas})

И получаю ошибку:
Py4JJavaError: An error occurred while calling o273.jdbc.
: java.sql.SQLException: No suitable driver

источник

11:31пожаловаться #4

Dmitry Zuev in Moscow Spark

залоади гденибудь

источник

11:33пожаловаться #5

Dmitry Zuev in Moscow Spark

.option("driver", "org.HANA.Driver")

источник

11:34пожаловаться #6

Dmitry Zuev in Moscow Spark

или что нибудь такое если питон

источник

11:34пожаловаться #7

РП

Роман Пашкевич... in Moscow Spark

да, питон

источник

11:35пожаловаться #8

РП

Роман Пашкевич... in Moscow Spark

Не нравится ему org.HANA.Driver
Py4JJavaError: An error occurred while calling o336.load.
: java.lang.ClassNotFoundException: org.HANA.Driver

источник

11:37пожаловаться #9

Dmitry Zuev in Moscow Spark

это ж пример

источник

11:38пожаловаться #10

Dmitry Zuev in Moscow Spark

ты туда своё имя класса пропиши

источник

11:38пожаловаться #11

РП

Роман Пашкевич... in Moscow Spark

*.jar достаточно положить локально на ноду?

источник

11:38пожаловаться #12

Dmitry Zuev in Moscow Spark

нужны джарники, нужно прописать их в сессию, нужно указать драйвер при read/write

источник

11:40пожаловаться #13

Sergej Khakhulin in Moscow Spark

кто-нибудь при сборке с таким сталкивался?

* creating vignettes ... ERROR

Attaching package: 'SparkR'

The following objects are masked from 'package:stats':

    cov, filter, lag, na.omit, predict, sd, var, window

The following objects are masked from 'package:base':

    as.data.frame, colnames, colnames<-, drop, endsWith, intersect,
    rank, rbind, sample, startsWith, subset, summary, transform, union

Picked up _JAVA_OPTIONS: -XX:-UsePerfData 
Picked up _JAVA_OPTIONS: -XX:-UsePerfData 
Error: A JNI error has occurred, please check your installation and try again
Exception in thread "main" java.lang.NoClassDefFoundError: org/slf4j/Logger
        at java.lang.Class.getDeclaredMethods0(Native Method)
        at java.lang.Class.privateGetDeclaredMethods(Class.java:2701)
        at java.lang.Class.privateGetMethodRecursive(Class.java:3048)
        at java.lang.Class.getMethod0(Class.java:3018)
        at java.lang.Class.getMethod(Class.java:1784)
        at sun.launcher.LauncherHelper.validateMainClass(LauncherHelper.java:544)
        at sun.launcher.LauncherHelper.checkAndLoadMain(LauncherHelper.java:526)
Caused by: java.lang.ClassNotFoundException: org.slf4j.Logger
        at java.net.URLClassLoader.findClass(URLClassLoader.java:382)
        at java.lang.ClassLoader.loadClass(ClassLoader.java:418)
        at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:352)
        at java.lang.ClassLoader.loadClass(ClassLoader.java:351)
        ... 7 more
Quitting from lines 79-81 (sparkr-vignettes.Rmd) 
Error: processing vignette 'sparkr-vignettes.Rmd' failed with diagnostics:
JVM is not ready after 10 seconds
Execution halted

Собирал

./dev/make-distribution.sh --name with-hive --pip --r --tgz -Phadoop-provided,sparkr,hive,hive-thriftserver,yarn -Pscala-2.12 -DskipTests

источник

12:11пожаловаться #14

РП

Роман Пашкевич... in Moscow Spark

Коллеги, спарководы.
А правильно ли я понимаю?

Имеем таблицу в HANA в 3+ млрд строк.

При попытке spark.read.load(), а потом spark.sql(select * from table where day = '2020-01-01').show() (там партиция в 20тыс строк)

Спарк сначала в себя попробует всосать все 3+ млрд строк, и потом уже найти нужные данные по дате?

источник

16:17пожаловаться #15

РП

Роман Пашкевич... in Moscow Spark

Ибо валится он радостно с ошибкой "search table error: [2598] column search intermediate result exceeds 2 billion rows limitation"

источник

16:18пожаловаться #16

Andrey Smirnov in Moscow Spark

Роман Пашкевич

а что в плане запроса, есть push filter?

источник

16:34пожаловаться #17

РП

Роман Пашкевич... in Moscow Spark

Andrey Smirnov

а что в плане запроса, есть push filter?

пока не было.

Но вот читаю доку, и вижу что есть возможность не просто считать таблицу. А сразу с подзапросом

spark.read.format("jdbc")
.option("url", jdbcUrl)
.option("query", "select c1, c2 from t1")
.load()

источник

16:35пожаловаться #18

Andrey Smirnov in Moscow Spark

Роман Пашкевич

если не было, то пытается все вычитать

источник

16:35пожаловаться #19

Nikolay in Moscow Spark

Это должна ваша хана уметь пушить предикаты

источник

16:52пожаловаться #20