Да. Он лучше тем, что все, что сможет, средьюсит на своей ноде перед шафлом с другими нодами. Ну и то что во втором случае значения не собираются в (возможно большой) список, который нужно держать в памяти, а сразу суммируют результаты
Не могу понять на каком моменте и с какого фига происходит трансформация запроса:
В Spark'e запрос: df_HANA = spark.sql("""select CH_ON as ch_on , count(1) as count from CN01 where CH_ON >= "20160601" group by CH_ON order by CH_ON """)
В HANA прилетает: SELECT "CH_ON" FROM SAPBI2.table WHERE ("CH_ON" IS NOT NULL) AND ("CH_ON" >= '20160601')