Size: a a a

2021 May 20

I

Ivan in Moscow Spark
но пайплан который написан сейчас работает с pandas DataFrame на входе и на выходе. И я не знаю как создать такую функцию которая будет принимать pandas DataFrame или Series или list[str] и возвращать pandas DataFrame который в итоге будет объеденяться в  Spark DF
источник

I

Ivan in Moscow Spark
то есть просто все фичи закинуть в Series?
источник

ЕГ

Евгений Глотов... in Moscow Spark
Пандас юдф (grouped_map)
источник

ЕГ

Евгений Глотов... in Moscow Spark
Только нужно знать все эти 70к фичей, которые ты хочешь на выходе, и вписать их в параметр выходной схемы
источник

ЕГ

Евгений Глотов... in Moscow Spark
Что делается - пандас внутри таска в спарке возвращает свой датафрейм, а дальше таск пытается считать его как свой с помощью схемы из параметра
источник

PK

Pavel Klemenkov in Moscow Spark
Меня всегда напрягало, что GROUPED_MAP юдфки используют только потому, что они датафрейм возвращают. Это всегда так нелепо в коде выглядит
источник

I

Ivan in Moscow Spark
Меня это тоже смутило, потому что я ничего не груперую . То есть просто использовать их?
источник

I

Ivan in Moscow Spark
В плане схему данных?
источник

ЕГ

Евгений Глотов... in Moscow Spark
Самое дебильное, что только они датафрейм принимают😆
источник

ЕГ

Евгений Глотов... in Moscow Spark
Собирать датафрейм из колонок - как-то дебильно)
источник

ЕГ

Евгений Глотов... in Moscow Spark
Да, схема выходного пандас датафрейма
источник

ЕГ

Евгений Глотов... in Moscow Spark
Её можно получить, прогнав на одной записи нужную операцию
источник

ЕГ

Евгений Глотов... in Moscow Spark
И сделав spark.createDataFrame(pd_one_row).schema
источник

I

Ivan in Moscow Spark
спасибо, буду пробовать
источник

IF

Ilya F in Moscow Spark
Всем привет! Проблема такая, я хочу сделать композицию трансформеров , первой идеей пришло воспользоваться pipeline, но pipeline это estimator, его нужно учить. Хотя когда он состоит только из трансформеров это оверхэд. Есть какая нибудь фича, которая позволяет сгруппировать трансформеры и получить сразу трансформер ? Спасибо!
источник

ЕГ

Евгений Глотов... in Moscow Spark
Можно сделать .fit(data).transfom(data)
источник

ЕГ

Евгений Глотов... in Moscow Spark
На пайплайне
источник

ЕГ

Евгений Глотов... in Moscow Spark
Много трансформеров, у которых либо фит, либо трансформ пустой, выглядит немного дебильно, но что есть
источник

PK

Pavel Klemenkov in Moscow Spark
Почему оверхед? fit же ничего делать не будет
источник

IF

Ilya F in Moscow Spark
Я лишний раз перестраховался от изобретения велосипеда) спасибо большое за советы!
источник