Телеграмм чат группы moscowspark страница 548

Ну в идеале мне посчитать row_number по окну которое равно этой группировке, просто если вводить соль в окно, то row_number будет небольше чем число строк в окне собственно, непонятно как потом получить row_number по всей партиции

источник

14:40пожаловаться #12

Mi in Moscow Spark

С суммой тут не прокатит)

источник

14:42пожаловаться #13

tenKe in Moscow Spark

с суммой это я херь сказал, не подумав (удалил уже)

источник

14:42пожаловаться #14

tenKe in Moscow Spark

ну смотри, можно че нить такое сделать (примерно):
1) делаем окно по ключу + соли, c сортировкой по колонке X, считаем rn
2) делаем новую колонку из кортежа (X + rn)
3) делаем окно по ключу без соли, collect_list этих кортежей
4) дальше как нить обрабатываем этот список кортежей и взрываем всю эту историю

источник

14:48пожаловаться #15

Mi in Moscow Spark

Солидно :)

источник

14:51пожаловаться #16

Mi in Moscow Spark

Ладно, спасибо больше всем за ответы, буду уже думать как там всё солить

источник

14:52пожаловаться #17

Mi in Moscow Spark

@tenKe @ExcellentName

Я уже не знаю что с этим репартишеном не так, даже с солью не работает вот вообще, перед записью вывожу отдельно число строк в каждом spark_partition_id - ровно две Спарк партиции с соответствующими числами строк

Execute InsertIntoHadoopFsRelationCommand InsertIntoHadoopFsRelationCommand ... 153 more fields]
+- Exchange hashpartitioning(concat_ws("_", my_date, FLOOR(rand * CEIL(salted_count_in_partition / required_rows_per_file)), 200)
+- Window [count(1) windowspecdefinition(my_date, salt) AS salted_count_in_partition]
+- Sort [my_date ASC NULLS FIRST, salt ASC NULLS FIRST], false, 0
+- Exchange hashpartitioning(my_date, salt, 200)
+- FileScan orc [...]

источник

19:34пожаловаться #18

Mi in Moscow Spark

Окно отрабатывает, а репартишен по результатам окна - нет

источник

19:37пожаловаться #19

tenKe in Moscow Spark

> FLOOR(rand * CEIL(salted_count_in_partition / required_rows_per_file))
а у тебя там какие значения у этой колонкиколонки?

источник

20:38пожаловаться #20