Телеграмм чат группы moscowspark страница 612

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Moscow Spark

1044 membersпожаловаться на группу

2021 April 01

e

er@essbase.ru in Moscow Spark

Артем Анистратов

Предположу, что на sql стриминг ты никак не завернешь., в то время как в рамках спарка пожалуйста. Да и вообще здесь разговор о двух разных подходах ETL и ELT

про стримминг , да занес в мемо , спасибо )

источник

09:02пожаловаться #1

A

Alex in Moscow Spark

Артем Анистратов

Предположу, что на sql стриминг ты никак не завернешь., в то время как в рамках спарка пожалуйста. Да и вообще здесь разговор о двух разных подходах ETL и ELT

почему нет?

флинк в стриминг на sql умеет
спарк в стриминг на sql умеет

источник

09:03пожаловаться #2

АА

Артем Анистратов... in Moscow Spark

почему нет?

флинк в стриминг на sql умеет
спарк в стриминг на sql умеет

Я так понял мы обсуждаем голый sql и использование спарка с df. Или здесь про подход low code?

источник

09:04пожаловаться #3

A

Alex in Moscow Spark

Нет, чем лучше df vs sql
В пределах спарка

источник

09:05пожаловаться #4

VS

Vasily Safronov in Moscow Spark

@essbase а у тебя щас sql код где?

источник

09:07пожаловаться #5

VS

Vasily Safronov in Moscow Spark

spark sql или голый?

источник

09:08пожаловаться #6

AK

Alena Korogodova in Moscow Spark

Только удобочитабельный код. Гораздо удобнее прочитать 200 строк датафреймов, чем сиквела
Если начинается множество преобразований, высчитывание всяких математических вещей, то в сиквеле можно состариться

Гораздо удобнее прочитать 200 строк sql, чем датафреймов. Вопрос привычки)

источник

09:10пожаловаться #7

С

Сюткин in Moscow Spark

Alena Korogodova

Гораздо удобнее прочитать 200 строк sql, чем датафреймов. Вопрос привычки)

И эти 200 строк sql кода будут равны 20 строкам датафрейма

источник

09:11пожаловаться #8

AK

Alena Korogodova in Moscow Spark

Сюткин

И эти 200 строк sql кода будут равны 20 строкам датафрейма

Ты диск экономишь?..

источник

09:11пожаловаться #9

IS

Ilya Slesarev in Moscow Spark

Alena Korogodova

Гораздо удобнее прочитать 200 строк sql, чем датафреймов. Вопрос привычки)

Если это селекты - может удобнее, а если преобразования, джоины, то сомневаюсь)

источник

09:11пожаловаться #10

С

Сюткин in Moscow Spark

Alena Korogodova

Ты диск экономишь?..

20 строк прочитать удобнее чем 200

источник

09:11пожаловаться #11

AK

Alena Korogodova in Moscow Spark

Вопрос привычки.

источник

09:12пожаловаться #12

АА

Артем Анистратов... in Moscow Spark

Ну в таком случае можно сказать, что ты полностью отказываешься и от привилегий ООП и ФП, а ограничиваешься только тем, что дает тебе синтаксис spark sql. И тут еще вопрос, мало использовал spark sql, в рамках него можно вызвать udf?

источник

09:13пожаловаться #13

AK

Alena Korogodova in Moscow Spark

Сюткин

20 строк прочитать удобнее чем 200

И ваще, давай пруфы такого sql, который из 200 строк превращается в 20)

источник

09:14пожаловаться #14

С

Сюткин in Moscow Spark

Alena Korogodova

И ваще, давай пруфы такого sql, который из 200 строк превращается в 20)

источник

09:14пожаловаться #15

АА

Артем Анистратов... in Moscow Spark

Знаю, что udf зло, но можно ли вообще как либо расширить функционал объявленый в spark sql?

источник

09:14пожаловаться #16

AK

Alena Korogodova in Moscow Spark

Артем Анистратов

Знаю, что udf зло, но можно ли вообще как либо расширить функционал объявленый в spark sql?

Не зло, если на скале)

источник

09:14пожаловаться #17

С

Сюткин in Moscow Spark

Alena Korogodova

И ваще, давай пруфы такого sql, который из 200 строк превращается в 20)

Я тут cnum как-то год назад переписывал, с sql, ужался код раза в 2.5

источник

09:14пожаловаться #18

С

Сюткин in Moscow Spark

Но это не показатель

источник

09:15пожаловаться #19

VS

Vasily Safronov in Moscow Spark

Alena Korogodova

Гораздо удобнее прочитать 200 строк sql, чем датафреймов. Вопрос привычки)

Ключевое слово "привычки" :))

Мой кейс:
под задачи BI в компании накатал за пару дней витринку, ничего сложного: простые агрегации, конвертация валют и с десяток простых бизнесовых метрик.

Тема настолько зашла, что в течение следующих 1.5 месяцев ко мне почти каждый день приходили и просили добавить "всего лишь ещё один" расчётный показатель. В итоге sql-код стал простынкой из >500 строк, и не смотря на то, что я старался соблюдать принципы модульности с кучей with () as, никто кроме меня и ребят из моей команды, которые приложили руку, разобраться в нём, не то чтобы не может, а просто не хочет.

Пример: понадобилось добавить расчёт кумулятивной суммы метрики. В df это можно сделать просто поменяв sum на cumsum. В sql не так, нужно извращаться. Попробовав наиболее распространённый рецепт - получили падение производительности на 2 порядка. План запроса для такой простыни, как вы понимаете отдаёт другую нечитаемую простыню. На просьбу к нашему dba-щику помочь, он посмотрел на нашу простыню, перекрестился и теперь просто обходит нас стороной.

Каждая новая мелкая доработка стала очень дорогой и стрёмной, почти всегда ломающей, то что уже работало. Продебажить классическими средствами нельзя. Юнит-тестов нет, потому что нет юнитов, короче кошмар.

В итоге застопил все тикеты на доработку и медитативно переписываем всё на df

источник

09:15пожаловаться #20