Size: a a a

2020 December 16

RD

Ruslan Dautov in Moscow Spark
Andrey Bel
слышал в третьем спарке завезли уже
Студентам когда показывал Spark. Им зашла связка Databricks + Python + Koalas. Сильно ускорило процесс вхождения. Pandas многие знают.
источник

АЖ

Андрей Жуков... in Moscow Spark
Ruslan Dautov
Студентам когда показывал Spark. Им зашла связка Databricks + Python + Koalas. Сильно ускорило процесс вхождения. Pandas многие знают.
Это кажущаяся простота, которая потом больно бьет или по кошельку, или по инженерам
источник

RD

Ruslan Dautov in Moscow Spark
Андрей Жуков
Это кажущаяся простота, которая потом больно бьет или по кошельку, или по инженерам
Полностью согласен.
источник

AA

Anton Alekseev in Moscow Spark
Андрей Жуков
Это кажущаяся простота, которая потом больно бьет или по кошельку, или по инженерам
Это небось из той же оперы что import dask as pd, т.е. нифига не совместимо? Или из-за того что не понимают что там под капотом?
источник

АЖ

Андрей Жуков... in Moscow Spark
Anton Alekseev
Это небось из той же оперы что import dask as pd, т.е. нифига не совместимо? Или из-за того что не понимают что там под капотом?
ну там никакой магии нет, там createDataFrame() и toPandas() FTW и немного сахара вокруг этого
источник

PK

Pavel Klemenkov in Moscow Spark
Может быть Koalas - это как раз хитрый ход датабрикс. Штат текущих аналитиков и датасатанистов сохраняется, а дата инжей на поддержку и оптимизацию коаласа нужно больше ))
источник

АЖ

Андрей Жуков... in Moscow Spark
Pavel Klemenkov
Может быть Koalas - это как раз хитрый ход датабрикс. Штат текущих аналитиков и датасатанистов сохраняется, а дата инжей на поддержку и оптимизацию коаласа нужно больше ))
Ну или нужно больше минералов на датабрикс :)
источник

А

Алексей in Moscow Spark
Подскажите, почему в agg нельзя писать просто list:_*  , как в остальных функциях?
df.groupBy(gr_cols:_*).agg(agg_cols: _*)
Приходится извращаться с
sku_df.groupBy(gr_cols:_*).agg(agg_cols.head, agg_cols.tail: _*)
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Алексей
Подскажите, почему в agg нельзя писать просто list:_*  , как в остальных функциях?
df.groupBy(gr_cols:_*).agg(agg_cols: _*)
Приходится извращаться с
sku_df.groupBy(gr_cols:_*).agg(agg_cols.head, agg_cols.tail: _*)
а какая сигнатура у agg?
источник

А

Алексей in Moscow Spark
Паша Финкельштейн
а какая сигнатура у agg?
источник

А

Алексей in Moscow Spark
хочется понять почему везде можно, а тут нет. Понять, что было в голове у человека, который это выдумывал)
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Алексей
хочется понять почему везде можно, а тут нет. Понять, что было в голове у человека, который это выдумывал)
Чтобы ты не мог туда пустой список запихать вестимо
источник

А

Алексей in Moscow Spark
Паша Финкельштейн
Чтобы ты не мог туда пустой список запихать вестимо
хз, поидее запрос может быть только с группировкой без агрегирующих функций
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Алексей
хз, поидее запрос может быть только с группировкой без агрегирующих функций
Ну в версии 2.0.0 появилось нормальное апи )
источник

ПФ

Паша Финкельштейн... in Moscow Spark
ds.groupBy().agg(Map("age" -> "max", "salary" -> "avg"))
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Но на самом деле вопрос интересный
источник

А

Алексей in Moscow Spark
Паша Финкельштейн
Ну в версии 2.0.0 появилось нормальное апи )
я начал сразу делать через лист функций. Такую функцию тоже можно передлать на мапу?
sum(sum($"amount")).over( Window.partitionBy( win_cols:_* )).as("amount_subcat")
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Ох, вот этого не знаю, конечно
источник

ПФ

Паша Финкельштейн... in Moscow Spark
(никогда не любил нетипизированное апи)
источник

А

Алексей in Moscow Spark
ну ладно, воспользовался воркэраундом agg_cols.head, agg_cols.tail: _* , но причина такой сигнатуры функции для меня остается загадкой
источник