Телеграмм чат группы moscowspark страница 285

Прошу подсказки, выполнение на реальных данных в самом деле печальное.

Ещё раз рассказываю ситуацию: произвольная таблица партиционируется по некотором выражению, я получаю количество файлов в каждой партиции и выполняю функцию percentile_approx. Второй её аргумент - массив процентилей, зависит от числа файлов, то есть, динамический. Но передан может быть только фиксированный литерал. Поэтому я применяю к исходном датафрейму фильтр, выполняю percentile_approx, собираю новый датафрейм из полученных с помощью reduce(_ unión _), и на этом основные сложности заканчиваются.

Основной вопрос: как избавиться от union, сохранив расчёт значений процентилей индивидуальным по каждой партиции?
Смотрел в сторону mapPartitions, но не смог разобраться, как можно вызвать percentile_approx для итератора.

Может немного не понял, но зачем разбиение на кучу дф если таблица одна?

источник

17:37пожаловаться #4

ИК

Иван Калининский... in Moscow Spark

Но вся фишка в том, что rowid и данные не соотнесены никак, поэтому для партиционирования по данным не подойдёт!

источник

17:37пожаловаться #5

ИК

Иван Калининский... in Moscow Spark

Gennady Timofeev

Может немного не понял, но зачем разбиение на кучу дф если таблица одна?

Потому что для каждой будущей партиции надо выполнить percentile_approx со вторым параметром, который для каждой партиции свой. А его можно передать только литералом

источник

17:39пожаловаться #6

ИК

Иван Калининский... in Moscow Spark

Да, есть варик переписать классы для этой функции, зарегать новую функцию как расширение и пользоваться, но это займёт время, я посмотрел пару классов и сходу не разобрался

источник

17:40пожаловаться #7

GT

Gennady Timofeev in Moscow Spark

Иван Калининский

Потому что для каждой будущей партиции надо выполнить percentile_approx со вторым параметром, который для каждой партиции свой. А его можно передать только литералом

А окна не подходят?

источник

17:41пожаловаться #8

ИК

Иван Калининский... in Moscow Spark

Gennady Timofeev

А окна не подходят?

Ммм, окна). Нежелательно, поскольку будет производиться сортировка, для каждой партиции может потребоваться несколько значений и это будут, скорее всего, разные окна

источник

17:43пожаловаться #9

ИК

Иван Калининский... in Moscow Spark

Gennady Timofeev

А окна не подходят?

Но если есть соображение как одним окном получить Ν значений процентилей, то я весь внимание

источник

17:44пожаловаться #10

GT

Gennady Timofeev in Moscow Spark

Ммммм, таким же образом? Или я все не понимаю, как у вас там подмножества для вычисления персентилей формируются 🤔

источник

17:46пожаловаться #11

ИК

Иван Калининский... in Moscow Spark

Следующим образом: файл должен содержать миллион записей. В партиции 16 миллионов строк - нужно 16 файлов, 15 значений процентилей. Полтора миллиона - 2 файла, одно значение процентиля. Меньше миллиона - скипаем эту партиции, она будет записана одним файлом

источник

17:49пожаловаться #12

N

Nikolay in Moscow Spark

Иван , а изначальна я какая у вас задача. Может быть можно сделать ее иначе ? Зачем вам все эти вычисления

источник

17:51пожаловаться #13

GT

Gennady Timofeev in Moscow Spark

Иван Калининский

Следующим образом: файл должен содержать миллион записей. В партиции 16 миллионов строк - нужно 16 файлов, 15 значений процентилей. Полтора миллиона - 2 файла, одно значение процентиля. Меньше миллиона - скипаем эту партиции, она будет записана одним файлом

N файлов с дополнительным полем с N-1 персентилей? И как раз какие именно персентили вычисляется для каждого файла в зависимости от данных в остальных файлах?

источник

17:53пожаловаться #14

ИК

Иван Калининский... in Moscow Spark

Nikolay

Иван , а изначальна я какая у вас задача. Может быть можно сделать ее иначе ? Зачем вам все эти вычисления

В вычисления нет ничего плохого) в конце концов, компьютеры для этого и предназначены. Изначальная задача - оптимизировать данные. Это весьма широкая формулировка, так что допускает много способов реализации, это один из них. Разделение первичного ключа по диапазонам без сортировки

источник

17:54пожаловаться #15

ИК

Иван Калининский... in Moscow Spark

Gennady Timofeev

N файлов с дополнительным полем с N-1 персентилей? И как раз какие именно персентили вычисляется для каждого файла в зависимости от данных в остальных файлах?

Нет, файлы ещё не созданы) есть только их количество

источник

17:55пожаловаться #16

GT

Gennady Timofeev in Moscow Spark

Иван Калининский

В вычисления нет ничего плохого) в конце концов, компьютеры для этого и предназначены. Изначальная задача - оптимизировать данные. Это весьма широкая формулировка, так что допускает много способов реализации, это один из них. Разделение первичного ключа по диапазонам без сортировки

Действительно непонятна задача. Так-то вы в лоб можете определить разные окна и считать (одно для разделения по миллиону записей, другое для вычисления персентилей, раз нужны данные из других миллионов записей)

источник

18:09пожаловаться #17

ИК

Иван Калининский... in Moscow Spark

Gennady Timofeev

Действительно непонятна задача. Так-то вы в лоб можете определить разные окна и считать (одно для разделения по миллиону записей, другое для вычисления персентилей, раз нужны данные из других миллионов записей)

Да, непонятно формулирую, может в этом и причина, что ответа пока не получил.

Итак, есть таблица, которую надо разбить на партиции. Каждую партицию надо разбить на файлы, так чтобы подмножества первичных ключей в файлах не пересекались. Количество файлов для каждой партиции определяется динамически.

источник

18:13пожаловаться #18

DZ

Dmitry Zuev in Moscow Spark

Иван Калининский

Да, непонятно формулирую, может в этом и причина, что ответа пока не получил.

Итак, есть таблица, которую надо разбить на партиции. Каждую партицию надо разбить на файлы, так чтобы подмножества первичных ключей в файлах не пересекались. Количество файлов для каждой партиции определяется динамически.

кароч просто партиционировать по ключу

источник

18:17пожаловаться #19

ИК

Иван Калининский... in Moscow Spark

Не соблюдается непересечение ключей в файлах

источник

18:17пожаловаться #20