Size: a a a

2020 October 20

G

Gev in Moscow Spark
Народ, подскажите. window функция row_number потоконезаисимый? Можно его использовать для генерации уникального ключа?
источник

А

Алексей in Moscow Spark
недавно было видео у датабрикса, что row_number будет очень тормозить
источник

А

Алексей in Moscow Spark
если без партишена, то в 1 поток все будет
источник

А

Алексей in Moscow Spark
источник

А

Алексей in Moscow Spark
и что лучше использовать zipwithindex
источник

G

Gev in Moscow Spark
Алексей
и что лучше использовать zipwithindex
Спасиб. Но сейчас уже что сделано то сделано. Просто хочу понять - я получу уникальные id или нет
источник

НК

Николай Корсаков... in Moscow Spark
Gev
Спасиб. Но сейчас уже что сделано то сделано. Просто хочу понять - я получу уникальные id или нет
Да. Но все пойдет через один экзекьютер. Медленно + риск по памяти.
источник

А

Алексей in Moscow Spark
потокобезопасно, т.к. в 1 потоке)
источник

G

Gev in Moscow Spark
Я уже столкнулся с этим. Не мог понять что заставляет шафалить все данные и вот оно. Но пока хотелось понять на сколько можно быть уверенным что получу уникальный id. Спасибо
источник

А

Алексей in Moscow Spark
при такой генерации id не получиться вставить строк куда то в середину
источник

НК

Николай Корсаков... in Moscow Spark
row_number = orderBy.
+ есть monotonically_incrace_id - гарантирует уникальность, но только в моменте создания, без сортировки и значения будут случайны
источник

TZ

Timur Zalimov in Moscow Spark
Всем привет, подскажите какие есть актуальные способы сбора бизнесовых метрик при работе spark тасок
источник

TZ

Timur Zalimov in Moscow Spark
Например я хочу по финальном df получить count всех его столбцов
источник

TZ

Timur Zalimov in Moscow Spark
Я нашёл только юзать java agent
источник

TZ

Timur Zalimov in Moscow Spark
Но мб есть что то ещё более эфективное ...
источник

AS

Andrey Smirnov in Moscow Spark
Николай Корсаков
row_number = orderBy.
+ есть monotonically_incrace_id - гарантирует уникальность, но только в моменте создания, без сортировки и значения будут случайны
они будут последовательны внутри партиции, потом будет скачок ( условно одна партиция заканчивается на 10, вторая начнется с 20 между партициями), но будут уникальные
источник

t

tenKe in Moscow Spark
Алексей
если без партишена, то в 1 поток все будет
есессна, это же оконная функция
источник

t

tenKe in Moscow Spark
там будет шафл в 1 партицию и все такое
источник

НК

Николай Корсаков... in Moscow Spark
Andrey Smirnov
они будут последовательны внутри партиции, потом будет скачок ( условно одна партиция заканчивается на 10, вторая начнется с 20 между партициями), но будут уникальные
Я как раз про скачки в нумерации - там запросто сдвиги в 6-7 порядков между партициями  )) Непрерывного номера через эту функцию на весь ДФ не получится.
источник

AS

Andrey Smirnov in Moscow Spark
Николай Корсаков
Я как раз про скачки в нумерации - там запросто сдвиги в 6-7 порядков между партициями  )) Непрерывного номера через эту функцию на весь ДФ не получится.
да, там зависит от числа партиций, зато быстрее чем все остальные методы
источник