Телеграмм чат группы moscowspark страница 487

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Moscow Spark

949 membersпожаловаться на группу

2020 December 16

ПФ

Паша Финкельштейн... in Moscow Spark

ну ладно, воспользовался воркэраундом agg_cols.head, agg_cols.tail: _* , но причина такой сигнатуры функции для меня остается загадкой

ну моя гипотеза как раз заключается в том, что если мы не запрашиваем ни одной колонки на выходе — то зачем мы всё эт творим?

источник

15:13пожаловаться #1

ПФ

Паша Финкельштейн... in Moscow Spark

У селекта одна из сигнатур такая же

источник

15:14пожаловаться #2

А

Алексей in Moscow Spark

Паша Финкельштейн

У селекта одна из сигнатур такая же

тогда не понимаю как тогда у меня работает это:

sku_df.groupBy(gr_cols:_*).agg(agg_cols.head, agg_cols.tail: _*).as("sku").select(sel_cols:_*)

источник

15:14пожаловаться #3

ПФ

Паша Финкельштейн... in Moscow Spark

тогда не понимаю как тогда у меня работает это:

sku_df.groupBy(gr_cols:_*).agg(agg_cols.head, agg_cols.tail: _*).as("sku").select(sel_cols:_*)

вторая не такая потому что

источник

15:15пожаловаться #4

ПФ

Паша Финкельштейн... in Moscow Spark

Тут скорее вопрос в том, какой смысл в селекте без аргументов

источник

15:15пожаловаться #5

А

Алексей in Moscow Spark

не проверял, возможно, *

источник

15:15пожаловаться #6

ПФ

Паша Финкельштейн... in Moscow Spark

не проверял, возможно, *

но такое поведение для agg дорого стоит. Селект — у тебя все данные и так уже есть. Но это всё спекуляции конечно

источник

15:16пожаловаться #7

А

Алексей in Moscow Spark

не, select(List():_*) , возвращает фрейм без колонок

источник

15:16пожаловаться #8

ПФ

Паша Финкельштейн... in Moscow Spark

не, select(List():_*) , возвращает фрейм без колонок

ну вот, в случае agg за нас просто подумали, кажется. Ежели бы в скале были зависимые типы — можно было бы сказать "Сюда принимается варарг размером не меньше 1"

источник

15:17пожаловаться #9

ФМ

Федор Мануковский... in Moscow Spark

Подскажите, почему в agg нельзя писать просто list:_* , как в остальных функциях?

df.groupBy(gr_cols:_*).agg(agg_cols: _*)

Приходится извращаться с

sku_df.groupBy(gr_cols:_*).agg(agg_cols.head, agg_cols.tail: _*)

А это не чтобы сигнатуры для string и column отличались?(важно при 0 аргументов)

источник

16:39пожаловаться #10

GP

Grigory Pomadchin in Moscow Spark

Паша Финкельштейн

ну вот, в случае agg за нас просто подумали, кажется. Ежели бы в скале были зависимые типы — можно было бы сказать "Сюда принимается варарг размером не меньше 1"

не нужны зависимые, рефайнд типов хватит, а в данном случае нон емпти списка

источник

16:45пожаловаться #11

ПФ

Паша Финкельштейн... in Moscow Spark

Grigory Pomadchin

не нужны зависимые, рефайнд типов хватит, а в данном случае нон емпти списка

Тоже верно

источник

16:46пожаловаться #12

ФМ

Федор Мануковский... in Moscow Spark

Федор Мануковский

А это не чтобы сигнатуры для string и column отличались?(важно при 0 аргументов)

а, не, это относится только к select

источник

17:17пожаловаться #13

2020 December 17

ИК

Иван Калининский... in Moscow Spark

Паша Финкельштейн

ds.groupBy().agg(Map("age" -> "max", "salary" -> "avg"))

В скаладоке написано с версии 1.3

источник

00:01пожаловаться #14

ПФ

Паша Финкельштейн... in Moscow Spark

Иван Калининский

В скаладоке написано с версии 1.3

Хм. В моей с 2.0.0...

источник

00:02пожаловаться #15

ИК

Иван Калининский... in Moscow Spark

Подскажите, почему в agg нельзя писать просто list:_* , как в остальных функциях?

df.groupBy(gr_cols:_*).agg(agg_cols: _*)

Приходится извращаться с

sku_df.groupBy(gr_cols:_*).agg(agg_cols.head, agg_cols.tail: _*)

В исходниках содержится ответ на вопрос, и, спойлер, @asm0dey в целом прав, но судит разработчиков с высоты своего уровня (то есть, переоценивает обдуманность решений). Я скопирую часть скаладока и сигнатуру agg из класса org.apache.spark.sql.RelationalGroupedDataset:
/**
….
* Note that before Spark 1.4, the default behavior is to NOT retain grouping columns. To change
* to that behavior, set config variable spark.sql.retainGroupColumns to false.
* {{{
* // Scala, 1.3.x:
* df.groupBy("department").agg($"department", max("age"), sum("expense"))
*
* // Java, 1.3.x:
* df.groupBy("department").agg(col("department"), max("age"), sum("expense"));
* }}}
*
* @since 1.3.0
*/
spark.sql.retainGroupColumns to false.
* {{{
* // Scala, 1.3.x:
* df.groupBy("department").agg($"department", max("age"), sum("expense"))
*
* // Java, 1.3.x:
* df.groupBy("department").agg(col("department"), max("age"), sum("expense"));
* }}}
*
* @since @since 1.3.0
*/
@scala.annotation.varargs
def agg(expr: Column, exprs: Column*): DataFrame = {???}

Класс до 2.0.0 назывался GroupedData. Методы agg в классе org.apache.spark.sql.Dataset являются обертками для вызова groupBy() и последующего обращения к методу agg из класса RelationalGroupedDataset

Как видим, в 1.3.0 колонки, по которым шла группировка не выводились, поэтому, чтобы привыкшие к ораклу и прочим SQL RDBMS пользователи не фрустрировали, нужна была подсказка, чтобы они не забывали выводить группируемые колонки, если они вообще присутствуют
Варианты agg с Map[String, String] c 1.3.0 выводили групповые поля, поэтому сразу же шли в сигнатуре, допускающей передачу пустого списка

Можно подумать, что это сделано, чтобы пользователи не забывали писать хотя бы одно выражение для группировки, если агрегация выполняется на всем наборе данных. Например, count(*) на пустом датафрейме должен выдать датафрейм с одной строкой и значением 0, а не пустой датафрейм с полем count. Но agg c пустым Map вполне валидно выполняется и выводит совершенно пустой датафрейм, значит, внутренних препятствий для такого использования не было, и даже можно быстро написать класс, который будет вызывать именно такую операцию без обращения к промежуточным agg

источник

00:48пожаловаться #16

ИК

Иван Калининский... in Moscow Spark

https://scastie.scala-lang.org/Ebde1Dx2S0SJHxvqaFvntQ

Вот реализация такого класса, работать будет, если правильно оформить пакет и т.д. Я не освоил scastie кроме как для стандартной библиотеки(

Scastie - An interactive playground for Scala.

Scastie can run any Scala program with any library in your browser. You don’t need to download or install anything.

источник

00:58пожаловаться #17

ПФ

Паша Финкельштейн... in Moscow Spark

Иван Калининский

В исходниках содержится ответ на вопрос, и, спойлер, @asm0dey в целом прав, но судит разработчиков с высоты своего уровня (то есть, переоценивает обдуманность решений). Я скопирую часть скаладока и сигнатуру agg из класса org.apache.spark.sql.RelationalGroupedDataset:
/**
….
* Note that before Spark 1.4, the default behavior is to NOT retain grouping columns. To change
* to that behavior, set config variable spark.sql.retainGroupColumns to false.
* {{{
* // Scala, 1.3.x:
* df.groupBy("department").agg($"department", max("age"), sum("expense"))
*
* // Java, 1.3.x:
* df.groupBy("department").agg(col("department"), max("age"), sum("expense"));
* }}}
*
* @since 1.3.0
*/
spark.sql.retainGroupColumns to false.
* {{{
* // Scala, 1.3.x:
* df.groupBy("department").agg($"department", max("age"), sum("expense"))
*
* // Java, 1.3.x:
* df.groupBy("department").agg(col("department"), max("age"), sum("expense"));
* }}}
*
* @since @since 1.3.0
*/
@scala.annotation.varargs
def agg(expr: Column, exprs: Column*): DataFrame = {???}

Класс до 2.0.0 назывался GroupedData. Методы agg в классе org.apache.spark.sql.Dataset являются обертками для вызова groupBy() и последующего обращения к методу agg из класса RelationalGroupedDataset

Как видим, в 1.3.0 колонки, по которым шла группировка не выводились, поэтому, чтобы привыкшие к ораклу и прочим SQL RDBMS пользователи не фрустрировали, нужна была подсказка, чтобы они не забывали выводить группируемые колонки, если они вообще присутствуют
Варианты agg с Map[String, String] c 1.3.0 выводили групповые поля, поэтому сразу же шли в сигнатуре, допускающей передачу пустого списка

Можно подумать, что это сделано, чтобы пользователи не забывали писать хотя бы одно выражение для группировки, если агрегация выполняется на всем наборе данных. Например, count(*) на пустом датафрейме должен выдать датафрейм с одной строкой и значением 0, а не пустой датафрейм с полем count. Но agg c пустым Map вполне валидно выполняется и выводит совершенно пустой датафрейм, значит, внутренних препятствий для такого использования не было, и даже можно быстро написать класс, который будет вызывать именно такую операцию без обращения к промежуточным agg

Приеольно, спасибо

источник

01:03пожаловаться #18

А

Алексей in Moscow Spark

Иван Калининский

https://scastie.scala-lang.org/Ebde1Dx2S0SJHxvqaFvntQ

Вот реализация такого класса, работать будет, если правильно оформить пакет и т.д. Я не освоил scastie кроме как для стандартной библиотеки(

Scastie - An interactive playground for Scala.

Scastie can run any Scala program with any library in your browser. You don’t need to download or install anything.

спасибо, но лучше оставлю workaround, чем вносить неочевидность со стандартным api через implicit

источник

09:21пожаловаться #19

ИК

Иван Калининский... in Moscow Spark

спасибо, но лучше оставлю workaround, чем вносить неочевидность со стандартным api через implicit

можно называть функции по другому, например aggList, так неопределенность уменьшится, а обращаться можно будет как к методу класса

источник

09:22пожаловаться #20