Size: a a a

2018 July 04

PK

Pavel Klemenkov in Moscow Spark
Да, про мист тоже огонь
источник

ZM

ZLoyer Matveev in Moscow Spark
или как вариант расскажи манагерам/продажникам, они отправят ребят сами
источник

PK

Pavel Klemenkov in Moscow Spark
ZLoyer Matveev
или как вариант расскажи манагерам/продажникам, они отправят ребят сами
Только самих продажников не присылайте, будут посланы )
источник

VC

Vadim ChelyshOv in Moscow Spark
как минимум все ссылаются что митап про спарк, а сервинг оно вообщем просто за мл модельки - там спарк сбоку припеку только ввиде враппинга моделей для реалтайм сервинга и усе)
источник
2018 July 10

PK

Pavel Klemenkov in Moscow Spark
Тем временем вышел Spark 2.2.2 http://spark.apache.org/releases/spark-release-2-2-2.html
Ничего особенного, maintenance release, но баги пофикшены, стабильность улучшена, обратно несовместимых косяков, судя по changelog нет. Так что можно спокойненько апгрейдиться.
источник

ЛР

Лев Рагулин... in Moscow Spark
Pavel Klemenkov
Тем временем вышел Spark 2.2.2 http://spark.apache.org/releases/spark-release-2-2-2.html
Ничего особенного, maintenance release, но баги пофикшены, стабильность улучшена, обратно несовместимых косяков, судя по changelog нет. Так что можно спокойненько апгрейдиться.
Рановато. Не?
источник
2018 July 11

PK

Pavel Klemenkov in Moscow Spark
Обновляться?
источник

ES

Evgenii Sushinskii in Moscow Spark
Кстати, ребята. Такой вопрос. Допустим, я сделал векторные представления товаров. Потом получил векторные представления корзин покупателей, усреднив векторы товаров, которые есть в их корзинах. Теперь я хочу найти косинус между каждой корзиной и каждым товаром. И ещё я пишу на Питоне. Я могу сделать это только с использованием crossJoin или есть ещё какие-то опции, чтобы работало быстрей?
источник

PK

Pavel Klemenkov in Moscow Spark
В свое время Твиттер ворвался такой статьей https://blog.twitter.com/engineering/en_us/a/2014/all-pairs-similarity-via-dimsum.html
источник

PK

Pavel Klemenkov in Moscow Spark
источник

PK

Pavel Klemenkov in Moscow Spark
Оно реализовано в columnSimilarities, попробуй
источник

ЛР

Лев Рагулин... in Moscow Spark
Join если есть четкое условие соединения и вдовесок оба датасета одинаково партицированы будет быстро работать
источник

PK

Pavel Klemenkov in Moscow Spark
Лев Рагулин
Join если есть четкое условие соединения и вдовесок оба датасета одинаково партицированы будет быстро работать
Только тут crossjoin, ему копартиционирование же не поможет
источник

ЛР

Лев Рагулин... in Moscow Spark
Pavel Klemenkov
Только тут crossjoin, ему копартиционирование же не поможет
Не внимательно прочитал.
источник

ЛР

Лев Рагулин... in Moscow Spark
Не понятно зачем кросс join для этой задачи
источник

ЛР

Лев Рагулин... in Moscow Spark
Нужно каждый товар в каждую корзину пихнуть?
источник

SK

Sergey Karpiy in Moscow Spark
Взаимные расстояния, каждый с каждым
источник

PK

Pavel Klemenkov in Moscow Spark
Лев Рагулин
Нужно каждый товар в каждую корзину пихнуть?
Тебе надо схожие товары по схожим корзинам распихать. Часто это делают подсчётом попарной близости всех со всеми и отсесением по порогу расстояния
источник

ЛР

Лев Рагулин... in Moscow Spark
Мм
источник

ЛР

Лев Рагулин... in Moscow Spark
Тогда да, партицилнирование не при чем
источник