Size: a a a

2020 February 04

DK

Daniel Kogan in Moscow Spark
Можно в паркет, например
источник

A🦕

Alexander Rodionov 🦕... in Moscow Spark
Daniel Kogan
rdd.reduceByKey(...) а дальше просто писать в любую базу/диск
блин, reduceByKey действительно не делает collect в отличие от reduce
спасибо!
источник

DK

Daniel Kogan in Moscow Spark
:) еще groupByKey лучше всегда заменять на reduceByKey. Все то же самое, но трафика по сети гонять меньше будет
источник

DK

Daniel Kogan in Moscow Spark
Alexander Rodionov 🦕🥦🥬🥒🍏🌵🦚🌲🌳🌴🌿☘️🍀🦖🦎🐍🐊🐸🍃🦠🌱🐢🐉🌾
типа делаем reduce сначала на нодах а потом редьюс результатов на драйвере
А, вы это уже увидели
источник

A🦕

Alexander Rodionov 🦕... in Moscow Spark
Тоесть вариант 2 более оптимальный получается?
источник

DK

Daniel Kogan in Moscow Spark
Да. Он лучше тем, что все, что сможет, средьюсит на своей ноде перед шафлом с другими нодами. Ну и то что во втором случае значения не собираются в (возможно большой) список, который нужно держать в памяти, а сразу суммируют результаты
источник

PK

Pavel Klemenkov in Moscow Spark
@tandav у тебя ник просто вырви глаз. Мне с трудом вообще удается читать сообщения, всегда только твой ник маячит
источник

A🦕

Alexander Rodionov 🦕... in Moscow Spark
sorry for that
источник

AL

Alex Lu in Moscow Spark
Pavel Klemenkov
@tandav у тебя ник просто вырви глаз. Мне с трудом вообще удается читать сообщения, всегда только твой ник маячит
+1
источник

AK

Alena Korogodova in Moscow Spark
Pavel Klemenkov
@tandav у тебя ник просто вырви глаз. Мне с трудом вообще удается читать сообщения, всегда только твой ник маячит
+1
источник
2020 February 07

РП

Роман Пашкевич... in Moscow Spark
Коллеги, а есть у кого опыт тянуть данные Spark'ом из HANA?
источник

РП

Роман Пашкевич... in Moscow Spark
Не могу понять на каком моменте и с какого фига происходит трансформация запроса:

В Spark'e  запрос:
df_HANA = spark.sql("""select
   CH_ON as ch_on
   , count(1) as count
   from CN01 where CH_ON >= "20160601"
   group by CH_ON
   order by CH_ON  """)

В HANA прилетает:
SELECT "CH_ON" FROM SAPBI2.table  WHERE ("CH_ON" IS NOT NULL) AND ("CH_ON" >= '20160601')
источник

РП

Роман Пашкевич... in Moscow Spark
т.е. отсутствует группировка, и добавляется условие CH_ON is not NULL
источник

РП

Роман Пашкевич... in Moscow Spark
результатом запроса в HANA в таком случае будет 500+ млн строк CH_ON, а должно в теории было быть 1300+ дат с количеством строк.
источник

ЕГ

Евгений Глотов... in Moscow Spark
Where пробрасывает в базу, а группировку не может пробросить, делает на спарке
источник

ЕГ

Евгений Глотов... in Moscow Spark
CN01 это jdbc source?
источник

РП

Роман Пашкевич... in Moscow Spark
да
источник

ЕГ

Евгений Глотов... in Moscow Spark
Если да, то можно сделать там вместо таблицы запрос
источник

РП

Роман Пашкевич... in Moscow Spark
сначала через
jdbcDF = spark.read \
   .format("jdbc") \
... считываю таблицу

Потом превращаю ее в view

jdbcDF.createOrReplaceTempView('CN01')
источник

РП

Роман Пашкевич... in Moscow Spark
и уже из view делал селект с группировкой.
источник