Телеграмм чат группы moscowspark страница 613

Удивился, поразился. Пошел перепроверять себя.

Вот данные актуальные на ноябрь 2019 года:

Normally to manipulate the data present a SQL database with Spark it is possible to exploit a custom UDF. However, as Adi Polak reminds us, use the higher-level standard column-based functions with dataset operators whenever possible before reverting to using your own custom UDF functions since UDFs are a blackbox for Spark and so it does not even try to optimise them.

источник

09:20пожаловаться #12

Г

Григорий Аксенов... in Moscow Spark

Ilya Slesarev

Когда ты пишешь на датафреймах, Спарк конвертит это в Спарк сиквел
Оне не становится быстрее, он такой же

спасиб за инфу 👍

источник

09:20пожаловаться #13

A

Alex in Moscow Spark

Ilya Slesarev

Spark SQL имеет только одну нишу, когда вам нужно написать код для тех людей, которые не смогут потом его поддерживать в виде датафреймов)

либо когда вы предоставляете конфигуряемые джобы

чтобы пользователи могли туда скормить несколько своих sql и вся обвязка лежит у вас

источник

09:21пожаловаться #14

Г

Григорий Аксенов... in Moscow Spark

Vasily Safronov

Ключевое слово "привычки" :))

Мой кейс:
под задачи BI в компании накатал за пару дней витринку, ничего сложного: простые агрегации, конвертация валют и с десяток простых бизнесовых метрик.

Тема настолько зашла, что в течение следующих 1.5 месяцев ко мне почти каждый день приходили и просили добавить "всего лишь ещё один" расчётный показатель. В итоге sql-код стал простынкой из >500 строк, и не смотря на то, что я старался соблюдать принципы модульности с кучей with () as, никто кроме меня и ребят из моей команды, которые приложили руку, разобраться в нём, не то чтобы не может, а просто не хочет.

Пример: понадобилось добавить расчёт кумулятивной суммы метрики. В df это можно сделать просто поменяв sum на cumsum. В sql не так, нужно извращаться. Попробовав наиболее распространённый рецепт - получили падение производительности на 2 порядка. План запроса для такой простыни, как вы понимаете отдаёт другую нечитаемую простыню. На просьбу к нашему dba-щику помочь, он посмотрел на нашу простыню, перекрестился и теперь просто обходит нас стороной.

Каждая новая мелкая доработка стала очень дорогой и стрёмной, почти всегда ломающей, то что уже работало. Продебажить классическими средствами нельзя. Юнит-тестов нет, потому что нет юнитов, короче кошмар.

В итоге застопил все тикеты на доработку и медитативно переписываем всё на df

хм. интересный кейс

источник

09:21пожаловаться #15

IS

Ilya Slesarev in Moscow Spark

Alex

либо когда вы предоставляете конфигуряемые джобы

чтобы пользователи могли туда скормить несколько своих sql и вся обвязка лежит у вас

Ага, похоже на то

источник

09:21пожаловаться #16

IS

Ilya Slesarev in Moscow Spark

Артем Анистратов

Удивился, поразился. Пошел перепроверять себя.

Вот данные актуальные на ноябрь 2019 года:

Normally to manipulate the data present a SQL database with Spark it is possible to exploit a custom UDF. However, as Adi Polak reminds us, use the higher-level standard column-based functions with dataset operators whenever possible before reverting to using your own custom UDF functions since UDFs are a blackbox for Spark and so it does not even try to optimise them.

udf зло в любом случае и на питоне и на скале
Просто на питоне намного больнее)

источник

09:21пожаловаться #17

AK

Alena Korogodova in Moscow Spark

Артем Анистратов

Удивился, поразился. Пошел перепроверять себя.

Вот данные актуальные на ноябрь 2019 года:

Normally to manipulate the data present a SQL database with Spark it is possible to exploit a custom UDF. However, as Adi Polak reminds us, use the higher-level standard column-based functions with dataset operators whenever possible before reverting to using your own custom UDF functions since UDFs are a blackbox for Spark and so it does not even try to optimise them.

«whenever possible»

источник

09:21пожаловаться #18

R

Rodion in Moscow Spark

Ilya Slesarev

Когда ты пишешь на датафреймах, Спарк конвертит это в Спарк сиквел
Оне не становится быстрее, он такой же

Не совсем такой же, все же с минимальными различиями

источник

09:23пожаловаться #19

АА

Артем Анистратов... in Moscow Spark

Ilya Slesarev

udf зло в любом случае и на питоне и на скале
Просто на питоне намного больнее)

Тык, да я про это везде и читал. Но после слов Алены, задумался, а то ли читал? В итоге нет, все таки читал правильно.

источник

09:23пожаловаться #20