Телеграмм чат группы moscowspark страница 611

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Moscow Spark

1044 membersпожаловаться на группу

2021 March 31

D

Datamove in Moscow Spark

я же правильно понимаю, что arrow еще не умеет работать со sparse-матрицами? Кто-то решал такую задачу - брать спаковскую колонку со спарс-векторами (как после CountVectorizer) и как-то подавать это на вход sklearn.LogisticRegression, которая умеет в спарс?

источник

13:29пожаловаться #1

D

Dmitry in Moscow Spark

Паша Финкельштейн

Можно файл отправлять как base64 аргумент софтины ещё

Угу, спасибо, тоже вариант! Пока, вроде, придумали как обойти с другой стороны снаряда)

источник

13:32пожаловаться #2

PK

Pavel Klemenkov in Moscow Spark

я же правильно понимаю, что arrow еще не умеет работать со sparse-матрицами? Кто-то решал такую задачу - брать спаковскую колонку со спарс-векторами (как после CountVectorizer) и как-то подавать это на вход sklearn.LogisticRegression, которая умеет в спарс?

Не умеет, более того вектор, в котором спарковские фичи хранятся тоже arrow не поддерживается

источник

13:42пожаловаться #3

ЕГ

Евгений Глотов... in Moscow Spark

Pavel Klemenkov

Не умеет, более того вектор, в котором спарковские фичи хранятся тоже arrow не поддерживается

Да он и самим спарком так себе поддерживается)

источник

13:46пожаловаться #4

ЕГ

Евгений Глотов... in Moscow Spark

Нуллы так и не подвезли?)

источник

13:46пожаловаться #5

IS

Ilya Slesarev in Moscow Spark

тогда еще связанный вопрос. Может кто-то использовал mlflow.pyfunc.spark_udf - для инференса на спарке модели, которая определена на питон, и которой требуется пандас-датафрейм.
Что вы делаете, если у вас есть в спарке колонка features с массивом, а требуется передать в spark_udf обычный датафрейм с колонками.
1) преобразовывать features в колонки на спарке
2) отдавать колонку features как есть, делать sklearn pipeline и в ней уже преобразовывать данные для для sklearn-модели

Мы пришли к такому варианту

@F.udf(returnType=DoubleType())
        def predict_udf(*cols):
            x = np.array(cols).reshape(1, -1)
            return float(model.predict(x))

Где колз - наши колонки

источник

15:19пожаловаться #6

IS

Ilya Slesarev in Moscow Spark

Но у нас 1 колонка - 1 фича

источник

15:19пожаловаться #7

2021 April 01

e

er@essbase.ru in Moscow Spark

Народ, помогите пж. собрать аргументы зачем нужно переписывать код с sql на Data Frame. Пока нет доводов кроме "типизации" 😔

источник

06:23пожаловаться #8

GP

Grigory Pomadchin in Moscow Spark

Народ, помогите пж. собрать аргументы зачем нужно переписывать код с sql на Data Frame. Пока нет доводов кроме "типизации" 😔

Ну зачем ты переписываешь скул на дфы?

источник

06:25пожаловаться #9

e

er@essbase.ru in Moscow Spark

Хороший ответ) .

источник

06:26пожаловаться #10

ДВ

Дмитрий Варюхин... in Moscow Spark

Мне кажется это был вопрос :)

источник

06:47пожаловаться #11

A

Alex in Moscow Spark

Job security

Раньше любой дба мог писать
А теперь лишь только ты понимаешь что творится

источник

06:49пожаловаться #12

e

er@essbase.ru in Moscow Spark

Job security

Раньше любой дба мог писать
А теперь лишь только ты понимаешь что творится

Вот вот . У меня только аргументы против. Но я не понимаю почему убеждают что DF это хорошо. Может что то все таки есть под капотом , что понятно только эксперту и является секретным соусом ?

источник

07:15пожаловаться #13

IS

Ilya Slesarev in Moscow Spark

Вот вот . У меня только аргументы против. Но я не понимаю почему убеждают что DF это хорошо. Может что то все таки есть под капотом , что понятно только эксперту и является секретным соусом ?

Только удобочитабельный код. Гораздо удобнее прочитать 200 строк датафреймов, чем сиквела
Если начинается множество преобразований, высчитывание всяких математических вещей, то в сиквеле можно состариться

источник

07:37пожаловаться #14

ПФ

Паша Финкельштейн... in Moscow Spark

Вот вот . У меня только аргументы против. Но я не понимаю почему убеждают что DF это хорошо. Может что то все таки есть под капотом , что понятно только эксперту и является секретным соусом ?

На df можно делать рефакторинги, можно тестировать и в произвольные части пайплайна добавлять логику. И можно контролировать типы, да

источник

08:35пожаловаться #15

e

er@essbase.ru in Moscow Spark

Паша Финкельштейн

На df можно делать рефакторинги, можно тестировать и в произвольные части пайплайна добавлять логику. И можно контролировать типы, да

Эти преимущества даёт среда разработки. По моему есть что то ещё , которое не относится к цветовым предпочтениям

источник

08:51пожаловаться #16

ПФ

Паша Финкельштейн... in Moscow Spark

Эти преимущества даёт среда разработки. По моему есть что то ещё , которое не относится к цветовым предпочтениям

Ну имхо говорить про программирование вне среды разработки можно, но никакого реального смысла не имеет.

источник

08:52пожаловаться #17

e

er@essbase.ru in Moscow Spark

Есть ли истории успеха , например было на sql и фуу. Стало на DF и ваууу

источник

08:53пожаловаться #18

АА

Артем Анистратов... in Moscow Spark

Предположу, что на sql стриминг ты никак не завернешь., в то время как в рамках спарка пожалуйста. Да и вообще здесь разговор о двух разных подходах ETL и ELT

источник

08:58пожаловаться #19

e

er@essbase.ru in Moscow Spark

Артем Анистратов

Предположу, что на sql стриминг ты никак не завернешь., в то время как в рамках спарка пожалуйста. Да и вообще здесь разговор о двух разных подходах ETL и ELT

DF это ETL ? для простоты предположим что все лежит в HDFS

источник

09:01пожаловаться #20