Телеграмм чат группы moscowspark страница 256

Да. Он лучше тем, что все, что сможет, средьюсит на своей ноде перед шафлом с другими нодами. Ну и то что во втором случае значения не собираются в (возможно большой) список, который нужно держать в памяти, а сразу суммируют результаты

источник

15:08пожаловаться #6

Pavel Klemenkov in Moscow Spark

@tandav у тебя ник просто вырви глаз. Мне с трудом вообще удается читать сообщения, всегда только твой ник маячит

источник

15:14пожаловаться #7

A🦕

Alexander Rodionov 🦕... in Moscow Spark

sorry for that

источник

15:15пожаловаться #8

Alex Lu in Moscow Spark

Pavel Klemenkov

@tandav у тебя ник просто вырви глаз. Мне с трудом вообще удается читать сообщения, всегда только твой ник маячит

источник

15:29пожаловаться #9

Alena Korogodova in Moscow Spark

Pavel Klemenkov

@tandav у тебя ник просто вырви глаз. Мне с трудом вообще удается читать сообщения, всегда только твой ник маячит

источник

15:49пожаловаться #10

2020 February 07

РП

Роман Пашкевич... in Moscow Spark

Коллеги, а есть у кого опыт тянуть данные Spark'ом из HANA?

источник

11:55пожаловаться #11

РП

Роман Пашкевич... in Moscow Spark

Не могу понять на каком моменте и с какого фига происходит трансформация запроса:

В Spark'e запрос:
df_HANA = spark.sql("""select
CH_ON as ch_on
, count(1) as count
from CN01 where CH_ON >= "20160601"
group by CH_ON
order by CH_ON """)

В HANA прилетает:
SELECT "CH_ON" FROM SAPBI2.table WHERE ("CH_ON" IS NOT NULL) AND ("CH_ON" >= '20160601')

источник

11:56пожаловаться #12

РП

Роман Пашкевич... in Moscow Spark

т.е. отсутствует группировка, и добавляется условие CH_ON is not NULL

источник

11:56пожаловаться #13

РП

Роман Пашкевич... in Moscow Spark

результатом запроса в HANA в таком случае будет 500+ млн строк CH_ON, а должно в теории было быть 1300+ дат с количеством строк.

источник

11:58пожаловаться #14