Телеграмм чат группы moscowspark страница 558

val win = Window.orderBy($"_1").rowsBetween(-2, -1)
df.withColumn("tst", collect_list($"_2").over(win)).withColumn("tst2", size(expr("filter(tst, x -> x == _2)")))

источник

14:09пожаловаться #7

ПФ

Паша Финкельштейн... in Moscow Spark

Оконные функции — козлы

источник

14:12пожаловаться #8

Алексей in Moscow Spark

Паша Финкельштейн

Оконные функции — козлы

почему?

источник

14:15пожаловаться #9

ПФ

Паша Финкельштейн... in Moscow Spark

Алексей

почему?

Потому что блин нет простых путей сделать кучу вещей, которые должны делать просто

источник

14:16пожаловаться #10

ПФ

Паша Финкельштейн... in Moscow Spark

Почему я не могу просто представить окно как таблицу и сделать на ней произвольные операции?

источник

14:16пожаловаться #11

ПФ

Паша Финкельштейн... in Moscow Spark

И в итоге фильтр листа — это не функция, а какой-то непонятный суррогат

источник

14:18пожаловаться #12

Mi in Moscow Spark

Особенности реализации?

источник

14:19пожаловаться #13

ПФ

Паша Финкельштейн... in Moscow Spark

Наверное да )

источник

14:19пожаловаться #14

Mi in Moscow Spark

Хотя все равно каждое окно это отдельный стейдж

источник

14:19пожаловаться #15

Алексей in Moscow Spark

Паша Финкельштейн

И в итоге фильтр листа — это не функция, а какой-то непонятный суррогат

не знаю, есть еще диалект mdx в классических бд, для обращения к данным а-ля эксель таблицы, но они еще более мозговыносящие.
Возможно будет читаемей код через join, который выше предлагали

источник

14:19пожаловаться #16

ПФ

Паша Финкельштейн... in Moscow Spark

Блиииин, а есть совсем другой путь — .partitionBy(_2).orderBy(_1).rowsBetween(-2,1)
и там делать count(*), очень похоже на то, что писали @SLASH_CyberPunk и @space_hero а я не понял по скудоумию своему

источник

14:22пожаловаться #17

ПФ

Паша Финкельштейн... in Moscow Spark

    SELECT  *,
            COUNT(*) OVER(PARTITION BY _2 ORDER BY _1 
                          RANGE BETWEEN 2 PRECEDING AND CURRENT ROW
                          ) -1 AS count
    FROM    table
    ORDER BY ID

источник

14:22пожаловаться #18

ПФ

Паша Финкельштейн... in Moscow Spark

Сначала партишн, потом ордер просто сделают нам окошки совсем маленькими

источник

14:23пожаловаться #19

ПФ

Паша Финкельштейн... in Moscow Spark

Всем спасибо, TIL

источник

14:28пожаловаться #20