Size: a a a

2021 February 12

NB

Nikita Bakanchev in Moscow Spark
Паша Финкельштейн
    SELECT  *,
           COUNT(*) OVER(PARTITION BY _2 ORDER BY _1
                         RANGE BETWEEN 2 PRECEDING AND CURRENT ROW
                         ) -1 AS count
   FROM    table
   ORDER BY ID
Это немного другая задача, не то что озвучивалась
источник

NB

Nikita Bakanchev in Moscow Spark
WITH t as  (
   
Select 1 as a, 'a' as b
   
UNION ALL
    Select
2 as a, 'b'as b
   
UNION ALL
    Select
3 as a, 'a' as b
UNION ALL
   select
4 as a, 'a' as b
union all
    select
5 as a, 'a' as b
union all
   select
6 as a, 'b' as b
)
select *, count(*) over(partition by b order by a
                   
range between 2 preceding and current row )
from t
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Nikita Bakanchev
Это немного другая задача, не то что озвучивалась
Да?
источник

NB

Nikita Bakanchev in Moscow Spark
а не
источник

NB

Nikita Bakanchev in Moscow Spark
я тупанул соррян
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Nikita Bakanchev
WITH t as  (
   
Select 1 as a, 'a' as b
   
UNION ALL
    Select
2 as a, 'b'as b
   
UNION ALL
    Select
3 as a, 'a' as b
UNION ALL
   select
4 as a, 'a' as b
union all
    select
5 as a, 'a' as b
union all
   select
6 as a, 'b' as b
)
select *, count(*) over(partition by b order by a
                   
range between 2 preceding and current row )
from t
ну тут мы привязаны прям к конкретным литералам, а там произвольные строки могут быть
источник

NB

Nikita Bakanchev in Moscow Spark
получается, что range between 2 preceding and current row в данной случае окно без учета партиции
источник

ПФ

Паша Финкельштейн... in Moscow Spark
А, не, сорри, это ты просто выразил дф sql'ем
источник

А

Алексей in Moscow Spark
Nikita Bakanchev
получается, что range between 2 preceding and current row в данной случае окно без учета партиции
вот для меня тоже новость. Век учись
источник

NB

Nikita Bakanchev in Moscow Spark
Алексей
вот для меня тоже новость. Век учись
потому что range а не rows
источник

NB

Nikita Bakanchev in Moscow Spark
ни разу не использовал range, даже затупил что-то )
источник

ПФ

Паша Финкельштейн... in Moscow Spark
источник

N

Nick in Moscow Spark
Все привет. Подскажите коллеги. Запускаю простую джобу с селектом + условие и дф потом записываю в новую таблицу или в уже готовую, но в новую партицию. Сам селект с условием проходит быстро(для меня) минут 8+-, а табличка создаётся 15мин+-. В чем может быть проблема? Никакой экзотики нет, все по дефольту. Может кто встречался такой случай
источник

NN

No Name in Moscow Spark
Nick
Все привет. Подскажите коллеги. Запускаю простую джобу с селектом + условие и дф потом записываю в новую таблицу или в уже готовую, но в новую партицию. Сам селект с условием проходит быстро(для меня) минут 8+-, а табличка создаётся 15мин+-. В чем может быть проблема? Никакой экзотики нет, все по дефольту. Может кто встречался такой случай
Ну, для начала, как Вы поняли, что селект с условием выполняется 7 минут, т.е. какой конкретно экшн вы выполняете? Далее, при записи в табличку у Вас подрастут IO косты. Ну и нужно за уровнем параллелизма следить, мб надо поднять. Если где-то наговорил ерунды, то коллеги поправят.
источник
2021 February 13

N

Nick in Moscow Spark
No Name
Ну, для начала, как Вы поняли, что селект с условием выполняется 7 минут, т.е. какой конкретно экшн вы выполняете? Далее, при записи в табличку у Вас подрастут IO косты. Ну и нужно за уровнем параллелизма следить, мб надо поднять. Если где-то наговорил ерунды, то коллеги поправят.
Через ui, в стейдже проследил за задачей
источник

AB

Andrey Bel in Moscow Spark
Nick
Все привет. Подскажите коллеги. Запускаю простую джобу с селектом + условие и дф потом записываю в новую таблицу или в уже готовую, но в новую партицию. Сам селект с условием проходит быстро(для меня) минут 8+-, а табличка создаётся 15мин+-. В чем может быть проблема? Никакой экзотики нет, все по дефольту. Может кто встречался такой случай
А сколько записей?
источник

N

Nick in Moscow Spark
Andrey Bel
А сколько записей?
Несколько лямов, таблица широкая
источник

AS

Andrey Smirnov in Moscow Spark
Nick
Несколько лямов, таблица широкая
Много вопросов: пишите в таблицу, таблица это хайв? Что физически файлы, csv orc parquet? Как пишите, через хайв или Спарком напрямую, есть ли там бакеты?
источник

N

Nick in Moscow Spark
Andrey Smirnov
Много вопросов: пишите в таблицу, таблица это хайв? Что физически файлы, csv orc parquet? Как пишите, через хайв или Спарком напрямую, есть ли там бакеты?
Хайв, орк, спарком, без бакетов
источник

ЕГ

Евгений Глотов... in Moscow Spark
Nick
Все привет. Подскажите коллеги. Запускаю простую джобу с селектом + условие и дф потом записываю в новую таблицу или в уже готовую, но в новую партицию. Сам селект с условием проходит быстро(для меня) минут 8+-, а табличка создаётся 15мин+-. В чем может быть проблема? Никакой экзотики нет, все по дефольту. Может кто встречался такой случай
repartition надо сделать
источник