Size: a a a

2020 January 24

GP

Grigory Pomadchin in Moscow Spark
а спринг только проблемы создавать себе, были же ребята тут и у них были проблемы какие-то с класс лоадерами
источник

K

KrivdaTheTriewe in Moscow Spark
Denis Gabaydulin
И запускать джобы (вызывать actions) значительно лучше в уже запущенные контексты. Получается приличная экономия если много джобов бегают круглосуточно. Можно использовать глобал кеш опять же.
Livy
источник
2020 January 28

AA

Anton Alekseev in Moscow Spark
Всем привет. Есть задача, колонку с бинарным флагом в инте смаппить на соответствующие значения из словарей, где ключ маска. тоесть флаг 17, и словарик {1: 'a', 2: 'b', 4: 'c', 8: 'd', 16: 'e'} смаппится в ['a', 'e']. Но есть доп условие, что словарик меняется в зависимости от еще одной колонки (column_property), и нужно выбирать словарик исходя из индекса в этой колонке. Можно как-то ускорить мою реализацию, я не нагуглил топовое готовое решение: https://pastebin.com/0r3LdN1g
источник

AA

Anton Alekseev in Moscow Spark
PRIVILEGES_MAPPING_# - это словарики
источник

SA

Sultanmurad Abduev in Moscow Spark
Всем привет! Правда ли что моделями из pyspark mllib лучше не пользоваться? (слышал мнение, что они устарели и вообще плохо написаны)
источник

ЕГ

Евгений Глотов... in Moscow Spark
Они дают качество хуже, чем нормальные фреймворки
источник

ЕГ

Евгений Глотов... in Moscow Spark
Сам mllib написан на rdd api, есть spark ml, то же самое, но с датафреймами и пайплайнами
источник

ЕГ

Евгений Глотов... in Moscow Spark
Плюс к нему можно пристроить плагинами нормальные фреймворки, вроде xgboost4j-spark, mmlspark, вроде даже нейросеточки
источник

ЕГ

Евгений Глотов... in Moscow Spark
Тут выше кто-то писал про pytorch on spark
источник

AZ

Alexey Zinoviev in Moscow Spark
Евгений Глотов
Они дают качество хуже, чем нормальные фреймворки
Нормальные это какие?
источник

ЕГ

Евгений Глотов... in Moscow Spark
Те, которые выигрывают кегл
источник

AZ

Alexey Zinoviev in Moscow Spark
Sultanmurad Abduev
Всем привет! Правда ли что моделями из pyspark mllib лучше не пользоваться? (слышал мнение, что они устарели и вообще плохо написаны)
Линейная регрессии и деревья устарели?  Чо-то новое там придумали?
источник

ЕГ

Евгений Глотов... in Moscow Spark
Там бустинг кривой, он не зарешивает вообще
источник

AZ

Alexey Zinoviev in Moscow Spark
Sultanmurad Abduev
Всем привет! Правда ли что моделями из pyspark mllib лучше не пользоваться? (слышал мнение, что они устарели и вообще плохо написаны)
Нет, не правда, это бред. Там классический Ml, подмножество scikit-learn
источник

ЕГ

Евгений Глотов... in Moscow Spark
Сколько ни подбирай параметры, xgboost из коробки даст на 2% выше точность
источник

AZ

Alexey Zinoviev in Moscow Spark
Евгений Глотов
Сколько ни подбирай параметры, xgboost из коробки даст на 2% выше точность
Xgboost! =любой бустинг, вы же в курсе?
источник

ЕГ

Евгений Глотов... in Moscow Spark
Ок, lightgbm тоже даст точность гораздо выше, и катбуст тоже)
источник

AZ

Alexey Zinoviev in Moscow Spark
Сам фреймворк-он кривой, никто не спорит. Но алгоритмы там обычные, блин
источник

ЕГ

Евгений Глотов... in Moscow Spark
Короче, промышленные реализации моделей лучше, чем те базовые, которые реализованы в спарк мл
источник

AZ

Alexey Zinoviev in Moscow Spark
Евгений Глотов
Ок, lightgbm тоже даст точность гораздо выше, и катбуст тоже)
Конечно, блин, это продвинутые, необощенные версии бустинга.
источник