Size: a a a

2021 March 31

D

Datamove in Moscow Spark
я же правильно понимаю, что arrow еще не умеет работать со sparse-матрицами? Кто-то решал такую задачу - брать спаковскую колонку со спарс-векторами (как после CountVectorizer) и как-то подавать это на вход sklearn.LogisticRegression, которая умеет в спарс?
источник

D

Dmitry in Moscow Spark
Паша Финкельштейн
Можно файл отправлять как base64 аргумент софтины ещё
Угу, спасибо, тоже вариант! Пока, вроде, придумали как обойти с другой стороны снаряда)
источник

PK

Pavel Klemenkov in Moscow Spark
Datamove
я же правильно понимаю, что arrow еще не умеет работать со sparse-матрицами? Кто-то решал такую задачу - брать спаковскую колонку со спарс-векторами (как после CountVectorizer) и как-то подавать это на вход sklearn.LogisticRegression, которая умеет в спарс?
Не умеет, более того вектор, в котором спарковские фичи хранятся тоже arrow не поддерживается
источник

ЕГ

Евгений Глотов... in Moscow Spark
Pavel Klemenkov
Не умеет, более того вектор, в котором спарковские фичи хранятся тоже arrow не поддерживается
Да он и самим спарком так себе поддерживается)
источник

ЕГ

Евгений Глотов... in Moscow Spark
Нуллы так и не подвезли?)
источник

IS

Ilya Slesarev in Moscow Spark
Datamove
тогда еще связанный вопрос. Может кто-то использовал mlflow.pyfunc.spark_udf - для инференса на спарке модели, которая определена на питон, и которой требуется пандас-датафрейм.
Что вы делаете, если у вас есть в спарке колонка features с массивом, а требуется передать в spark_udf обычный датафрейм с колонками.
1) преобразовывать features в колонки на спарке
2) отдавать колонку features как есть, делать sklearn pipeline и в ней уже преобразовывать данные для для sklearn-модели
Мы пришли к такому варианту
@F.udf(returnType=DoubleType())
       def predict_udf(*cols):
           x = np.array(cols).reshape(1, -1)
           return float(model.predict(x))

Где колз - наши колонки
источник

IS

Ilya Slesarev in Moscow Spark
Но у нас 1 колонка - 1 фича
источник
2021 April 01

e

er@essbase.ru in Moscow Spark
Народ, помогите пж. собрать аргументы зачем нужно переписывать код с sql на Data Frame. Пока нет доводов  кроме "типизации" 😔
источник

GP

Grigory Pomadchin in Moscow Spark
er@essbase.ru
Народ, помогите пж. собрать аргументы зачем нужно переписывать код с sql на Data Frame. Пока нет доводов  кроме "типизации" 😔
Ну зачем ты переписываешь скул на дфы?
источник

e

er@essbase.ru in Moscow Spark
Хороший ответ) .
источник

ДВ

Дмитрий Варюхин... in Moscow Spark
Мне кажется это был вопрос :)
источник

A

Alex in Moscow Spark
Job security

Раньше любой дба мог писать
А теперь лишь только ты понимаешь что творится
источник

e

er@essbase.ru in Moscow Spark
Alex
Job security

Раньше любой дба мог писать
А теперь лишь только ты понимаешь что творится
Вот вот . У меня только аргументы против. Но я не понимаю почему  убеждают что DF это хорошо. Может что то все таки есть под капотом , что понятно только эксперту и является секретным соусом ?
источник

IS

Ilya Slesarev in Moscow Spark
er@essbase.ru
Вот вот . У меня только аргументы против. Но я не понимаю почему  убеждают что DF это хорошо. Может что то все таки есть под капотом , что понятно только эксперту и является секретным соусом ?
Только удобочитабельный код. Гораздо удобнее прочитать 200 строк датафреймов, чем сиквела
Если начинается множество преобразований, высчитывание всяких математических вещей, то в сиквеле можно состариться
источник

ПФ

Паша Финкельштейн... in Moscow Spark
er@essbase.ru
Вот вот . У меня только аргументы против. Но я не понимаю почему  убеждают что DF это хорошо. Может что то все таки есть под капотом , что понятно только эксперту и является секретным соусом ?
На df можно делать рефакторинги, можно тестировать и в произвольные части пайплайна добавлять логику. И можно контролировать типы, да
источник

e

er@essbase.ru in Moscow Spark
Паша Финкельштейн
На df можно делать рефакторинги, можно тестировать и в произвольные части пайплайна добавлять логику. И можно контролировать типы, да
Эти преимущества даёт среда разработки. По моему есть что то ещё , которое не относится к цветовым предпочтениям
источник

ПФ

Паша Финкельштейн... in Moscow Spark
er@essbase.ru
Эти преимущества даёт среда разработки. По моему есть что то ещё , которое не относится к цветовым предпочтениям
Ну имхо говорить про программирование вне среды разработки можно, но никакого реального смысла не имеет.
источник

e

er@essbase.ru in Moscow Spark
Есть ли истории успеха , например было на sql  и фуу. Стало на DF и ваууу
источник

АА

Артем Анистратов... in Moscow Spark
Предположу, что на sql стриминг ты никак не завернешь., в то время как в рамках спарка пожалуйста. Да и вообще здесь разговор о двух разных подходах ETL и ELT
источник

e

er@essbase.ru in Moscow Spark
Артем Анистратов
Предположу, что на sql стриминг ты никак не завернешь., в то время как в рамках спарка пожалуйста. Да и вообще здесь разговор о двух разных подходах ETL и ELT
DF это ETL ? для простоты предположим что все лежит в HDFS
источник