Телеграмм чат группы moscowspark страница 90

Проблемненько, но решил) Главное теперь определить на больших данных что вывод у меня правильный😆.

Кто сталкивался с кластеризацией? Я так понимаю по докам мне необходимо MLib использовать. Сама задача состоит в том чтобы кластеризовать группу предложений по словам. Если какое то слово совпадает, то мы обединяем предложения в группу.

Например:

Ввод-> "Новая машина купить","купить самолет","Новая стиралка","Чудесная погода","Погода сегодня"

Вывод->
{"Новая машина купить","купить самолет","Новая стиралка"}
,{"Чудесная погода","Погода сегодня"}

источник

18:06пожаловаться #17

AP

Alexander Piminov in Moscow Spark

Artem Muravlev

Проблемненько, но решил) Главное теперь определить на больших данных что вывод у меня правильный😆.

Кто сталкивался с кластеризацией? Я так понимаю по докам мне необходимо MLib использовать. Сама задача состоит в том чтобы кластеризовать группу предложений по словам. Если какое то слово совпадает, то мы обединяем предложения в группу.

Например:

Ввод-> "Новая машина купить","купить самолет","Новая стиралка","Чудесная погода","Погода сегодня"

Вывод->
{"Новая машина купить","купить самолет","Новая стиралка"}
,{"Чудесная погода","Погода сегодня"}

Если тебе нужно просто объединить фразы по совпадению какого-то слова, то из MLLib тебе может быть нужен от силы Tokenizer (хотя и тут вполне будет просто split), а в остальном это просто преобразованиями решается.

источник

18:21пожаловаться #18

AM

Artem Muravlev in Moscow Spark

Можно ли как то сделать join 2-ух Rdd по такому принципу.

Rdd1:
{"key":"id1","value"Hello"},
{"key":"id2","value" world!"}

Rdd2:
{{"key":"id1","id1,id2"},
{"key":"id2","id1,id2"}}

RddResult:
{"key":"id1","value"Hello world!"},{"key":"id2","value"Hello world!"}

источник

19:48пожаловаться #19

AM

Artem Muravlev in Moscow Spark

ага, спасибо!

источник

19:56пожаловаться #20