Телеграмм чат группы moscowspark страница 486

Size: a a a

Moscow Spark

2020 December 16

слышал в третьем спарке завезли уже

Студентам когда показывал Spark. Им зашла связка Databricks + Python + Koalas. Сильно ускорило процесс вхождения. Pandas многие знают.

источник

11:15пожаловаться #1

АЖ

Андрей Жуков... in Moscow Spark

Ruslan Dautov

Это кажущаяся простота, которая потом больно бьет или по кошельку, или по инженерам

источник

11:18пожаловаться #2

Ruslan Dautov in Moscow Spark

Андрей Жуков

Это кажущаяся простота, которая потом больно бьет или по кошельку, или по инженерам

Полностью согласен.

источник

11:20пожаловаться #3

Anton Alekseev in Moscow Spark

Андрей Жуков

Это кажущаяся простота, которая потом больно бьет или по кошельку, или по инженерам

Это небось из той же оперы что import dask as pd, т.е. нифига не совместимо? Или из-за того что не понимают что там под капотом?

источник

11:22пожаловаться #4

АЖ

Андрей Жуков... in Moscow Spark

Anton Alekseev

ну там никакой магии нет, там createDataFrame() и toPandas() FTW и немного сахара вокруг этого

источник

11:23пожаловаться #5

Pavel Klemenkov in Moscow Spark

Может быть Koalas - это как раз хитрый ход датабрикс. Штат текущих аналитиков и датасатанистов сохраняется, а дата инжей на поддержку и оптимизацию коаласа нужно больше ))

источник

11:24пожаловаться #6

АЖ

Андрей Жуков... in Moscow Spark

Pavel Klemenkov

Ну или нужно больше минералов на датабрикс :)

источник

11:26пожаловаться #7

Алексей in Moscow Spark

Подскажите, почему в agg нельзя писать просто list:_* , как в остальных функциях?

df.groupBy(gr_cols:_*).agg(agg_cols: _*)

Приходится извращаться с

sku_df.groupBy(gr_cols:_*).agg(agg_cols.head, agg_cols.tail: _*)

источник

15:04пожаловаться #8

ПФ

Паша Финкельштейн... in Moscow Spark

Алексей

Подскажите, почему в agg нельзя писать просто list:_* , как в остальных функциях?

df.groupBy(gr_cols:_*).agg(agg_cols: _*)

Приходится извращаться с

sku_df.groupBy(gr_cols:_*).agg(agg_cols.head, agg_cols.tail: _*)

а какая сигнатура у agg?

источник

15:07пожаловаться #9

Алексей in Moscow Spark

Паша Финкельштейн

а какая сигнатура у agg?

https://spark.apache.org/docs/1.4.0/api/java/org/apache/spark/sql/GroupedData.html#agg(org.apache.spark.sql.Column,%20scala.collection.Seq)

источник

15:08пожаловаться #10

Алексей in Moscow Spark

хочется понять почему везде можно, а тут нет. Понять, что было в голове у человека, который это выдумывал)

источник

15:08пожаловаться #11

ПФ

Паша Финкельштейн... in Moscow Spark

Алексей

хочется понять почему везде можно, а тут нет. Понять, что было в голове у человека, который это выдумывал)

Чтобы ты не мог туда пустой список запихать вестимо

источник

15:08пожаловаться #12

Алексей in Moscow Spark

Паша Финкельштейн

Чтобы ты не мог туда пустой список запихать вестимо

хз, поидее запрос может быть только с группировкой без агрегирующих функций

источник

15:10пожаловаться #13

ПФ

Паша Финкельштейн... in Moscow Spark

Алексей

хз, поидее запрос может быть только с группировкой без агрегирующих функций

Ну в версии 2.0.0 появилось нормальное апи )

источник

15:10пожаловаться #14

ПФ

Паша Финкельштейн... in Moscow Spark

ds.groupBy().agg(Map("age" -> "max", "salary" -> "avg"))

источник

15:10пожаловаться #15

ПФ

Паша Финкельштейн... in Moscow Spark

Но на самом деле вопрос интересный

источник

15:11пожаловаться #16

Алексей in Moscow Spark

Паша Финкельштейн

Ну в версии 2.0.0 появилось нормальное апи )

я начал сразу делать через лист функций. Такую функцию тоже можно передлать на мапу?

sum(sum($"amount")).over( Window.partitionBy( win_cols:_* )).as("amount_subcat")

источник

15:11пожаловаться #17

ПФ

Паша Финкельштейн... in Moscow Spark

Ох, вот этого не знаю, конечно

источник

15:12пожаловаться #18

ПФ

Паша Финкельштейн... in Moscow Spark

(никогда не любил нетипизированное апи)

источник

15:12пожаловаться #19

Алексей in Moscow Spark

ну ладно, воспользовался воркэраундом agg_cols.head, agg_cols.tail: _* , но причина такой сигнатуры функции для меня остается загадкой

источник

15:13пожаловаться #20