Size: a a a

2021 March 10

GK

Gleb Kozhaev in Moscow Spark
Andrey Smirnov
arrow пробовали использовать?
Пошел гуглить, спасибо)
источник

IS

Ilya Slesarev in Moscow Spark
Andrey Smirnov
arrow пробовали использовать?
arrow ускорит, но по памяти не даст выигрыша)
источник

IS

Ilya Slesarev in Moscow Spark
В 3 пайспарке arrow udf реализованы намного удобнее, чем в предыдущих, кстати
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Ilya Slesarev
arrow ускорит, но по памяти не даст выигрыша)
Мне кажется там даже будет пенальти по памяти, нет?
источник

IS

Ilya Slesarev in Moscow Spark
Паша Финкельштейн
Мне кажется там даже будет пенальти по памяти, нет?
Не, речь идет про pandas udf
источник

IS

Ilya Slesarev in Moscow Spark
Они под капотом идут в arrow, но фактически это те же udf, просто быстрее
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Ilya Slesarev
Не, речь идет про pandas udf
Не, в смысле там всёё равно из натива в питон гонять
источник

IS

Ilya Slesarev in Moscow Spark
Паша Финкельштейн
Не, в смысле там всёё равно из натива в питон гонять
Если ты про сериализацию, то там ее нет
источник

IS

Ilya Slesarev in Moscow Spark
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Там есть конверсия лэйаута данных при любом раскладе же?
источник

AS

Andrey Smirnov in Moscow Spark
Ilya Slesarev
arrow ускорит, но по памяти не даст выигрыша)
а за счет чего ускорит, не из-за того, что не нужно лишний раз пиклы делать?
источник

IS

Ilya Slesarev in Moscow Spark
Паша Финкельштейн
Там есть конверсия лэйаута данных при любом раскладе же?
Не понимать (
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Ilya Slesarev
Не понимать (
Ну у тебя есть данные в джавовой памяти, так? Теперь тебе надо как-то их превратить в питонячьи/сишные данные. Правильно?
источник

IS

Ilya Slesarev in Moscow Spark
Ух, слишком много вопросов, к которым я не знаю ответы)
источник

IS

Ilya Slesarev in Moscow Spark
Но звучит правильно
источник

IS

Ilya Slesarev in Moscow Spark
Andrey Smirnov
а за счет чего ускорит, не из-за того, что не нужно лишний раз пиклы делать?
Теория в моей голове гласит, что ускорение только за счет того, что не нужно делать сериализацию каждой строчки
источник

AS

Andrey Smirnov in Moscow Spark
Ilya Slesarev
Теория в моей голове гласит, что ускорение только за счет того, что не нужно делать сериализацию каждой строчки
на той диаграмме что вы сами скинули как раз пишется про double sterilization, в случае arrow этого нет
источник

IS

Ilya Slesarev in Moscow Spark
Andrey Smirnov
на той диаграмме что вы сами скинули как раз пишется про double sterilization, в случае arrow этого нет
Да, это про каждую строчку, которая в обычной udf в питоне будет сериализоваться
источник

AS

Andrey Smirnov in Moscow Spark
Паша Финкельштейн
Ну у тебя есть данные в джавовой памяти, так? Теперь тебе надо как-то их превратить в питонячьи/сишные данные. Правильно?
я так понимаю они хранятся уже во внутренней структуре самого арроу
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Ilya Slesarev
Но звучит правильно
ну вот если да — то конвертация данных есть, просто она в памяти происходит, а не через промежуточные слои
источник