Size: a a a

2018 July 19

ES

Evgenii Sushinskii in Moscow Spark
Это я видел, да. Мне хотелось бы что-то именно для pandas_udf против функций, написанных на Java, а потом зарегистрированных в python-коде. Что-то такое.
источник

ЕГ

Евгений Глотов... in Moscow Spark
В идеале на пандасе должно быть быстрее, потому что там же всё на си
источник

ЕГ

Евгений Глотов... in Moscow Spark
Ну, кроме apply с куском питоновского кода)
источник

AS

Andrey Sutugin in Moscow Spark
Evgenii Sushinskii
Вот версия как раз 2.2, где их ещё нет. Кстати, про pandas_udf тоже у меня есть вопрос. Какие-нибудь бенчмарки есть у кого-нибудь, где сравнивались бы pandas_udf и вот использование самописных Java-функций в python-коде? Или использование Java-функций в python-коде - это wrong way? Просто весь код переписывать на Java не хочется, потому что на python вроде как разработка быстрей, кода меньше (да и просто опыта больше). Но отдельные места хотелось бы ускорить, поэтому вот ищу варианты.
источник

PK

Pavel Klemenkov in Moscow Spark
Евгений Глотов
В идеале на пандасе должно быть быстрее, потому что там же всё на си
Ну, дело не столько в си, а в arrow. По факту не происходит копирования данных из jvm в питоновский процесс, память просто мапится через arrow. А основной оверхед в udf, все же, на сериализацию-десериализацию
источник

ЕГ

Евгений Глотов... in Moscow Spark
Pavel Klemenkov
Ну, дело не столько в си, а в arrow. По факту не происходит копирования данных из jvm в питоновский процесс, память просто мапится через arrow. А основной оверхед в udf, все же, на сериализацию-десериализацию
Я имел в виду, что не только джаватупитон не происходит, но и сами математические операции производятся на си, что должно приводить к ускорению - отсутствие мэнэджед памяти, всякие там avx-оптимизиции
источник

ЕГ

Евгений Глотов... in Moscow Spark
Хотя какая разница, если построение графа выполнения запроса выполняется 15 минут)
источник

DU

Dmitry Ursegov in Moscow Spark
Хм, а почему так долго?
источник

ЕГ

Евгений Глотов... in Moscow Spark
3500 колонок)
источник

ЕГ

Евгений Глотов... in Moscow Spark
50 джойнов)
источник

DU

Dmitry Ursegov in Moscow Spark
Круто, ну и запрос наверное не быстро выполняется )
источник

ЕГ

Евгений Глотов... in Moscow Spark
Ну часок-два)
источник

ЕГ

Евгений Глотов... in Moscow Spark
В зависимости от числа свободных ядер)
источник

DU

Dmitry Ursegov in Moscow Spark
А это что за задача, где такое требуется ?
источник

GP

Grigory Pomadchin in Moscow Spark
Евгений Глотов
Я имел в виду, что не только джаватупитон не происходит, но и сами математические операции производятся на си, что должно приводить к ускорению - отсутствие мэнэджед памяти, всякие там avx-оптимизиции
В случае джава ту питона можн жнай использовать а не гейт
источник

GP

Grigory Pomadchin in Moscow Spark
будет не так ловко как эроу конечно
источник

GP

Grigory Pomadchin in Moscow Spark
но мем копи он деманд
источник

ЕГ

Евгений Глотов... in Moscow Spark
Dmitry Ursegov
А это что за задача, где такое требуется ?
Витринка для xgboost)
источник
2018 July 20

R

Rogoley in Moscow Spark
тихо и незаметно вышел hdp 3.0.0
источник

R

Rogoley in Moscow Spark
источник