Size: a a a

2021 May 19

A

Alexey in Moscow Spark
вашу Big Dat'у и тут и там показывают)
источник

NN

No Name in Moscow Spark
Теперь понятно, зачем он ту картинку спрашивал)
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Всё так )))
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Не зря же я картинку искал
источник

AZ

Alexey Zinoviev in Moscow Spark
А можешь кинуть ссылку в личку на хайрез
источник

DG

Denis Gabaydulin in Moscow Spark
BTW, они и для аналитических движков тоже применяются. Там довольно широкий спект фичей в запросах.
источник

K

KrivdaTheTriewe in Moscow Spark
,главное иметь хобби , которое поможет отвлечься от ада
источник

DS

Dmitry Sosna in Moscow Spark
Ребят, есть профильный чатик по подбору джавакодеров с желанием убиться в спарк, хадуп и мпп?
источник

АЖ

Андрей Жуков... in Moscow Spark
источник

DS

Dmitry Sosna in Moscow Spark
Спасиб
источник

ДД

Джон Дориан... in Moscow Spark
Если есть резюме - могу попробовать зареферить, киньте в личку. У нас в конторе обучают джавистов на биг дату
источник
2021 May 20

A

Alexey in Moscow Spark
можно мне эту картинку тоже? 😁
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Блин, я опять её потерял…
источник

ПФ

Паша Финкельштейн... in Moscow Spark
источник

ПФ

Паша Финкельштейн... in Moscow Spark
@pklemenkov а можешь закрепить? Мы её постоянно теряем
источник

ПФ

Паша Финкельштейн... in Moscow Spark
источник

I

Ivan in Moscow Spark
Добрый день, подскажите пожалуйста, есть задача нужно посчитать одну CPU интенсивную задачу с использованием python библиотеки Rdkit. При подсчете столкнулся с нехваткой мощностей одного компьютера по этому решил использовать PySpark. На данный момент все расчеты используют обычный pandas, multiprocessing pool и саму библиотеку Rdkit. На вход приходит массив строк, на выходе получается 70к числовых фич для каждой строки. Для того чтобы распаралелить это всё я так понял нужно использовать pandas_udf. Собственно вопрос: как написать UDF так, чтобы к спарк датафрему добавлять просчитанный pandas датафрейм или возможно есть другой более эффективный подход?

Заранее спасибо
источник

PK

Pavel Klemenkov in Moscow Spark
Что значит добавлять? Ты всегда можешь сделать из пандас датафрейма спарковский и поджойнить два спарковских.
источник

I

Ivan in Moscow Spark
из каждой строки я генерирую много фич и мне эти фичи нужно добавить в датафрейм со строками как отдельные колонки этот процесс я назвал "добавлять"

Мне джоинить нечего, так как фичи создаются из колонки со строчками, я думал сделать что-то аля df.select(pandas_udf_name(col('STRING_COLUMN_NAME')))
источник

PK

Pavel Klemenkov in Moscow Spark
Ну так все ровно, ты определяешь pandas_udf, которая в качестве аргументов принимает столбцы твоего спарковского DF, из которых генерятся фичи, а возвращаешь Series, каждый элемент которой содерджит все фичи.
источник