Size: a a a

R (язык программирования)

2021 May 20

ГД

Григорий Демин... in R (язык программирования)
В stringdist есть метод расчета lqs - longest common substring. Может, этот метод подойдёт? Хотя искать такими способами общие корни - немного бег по граблям...
источник

ГД

Григорий Демин... in R (язык программирования)
Интересно, почему в dog и flower результат - 0? У них же общая буква "o"
источник

IS

Ilya Shutov in R (язык программирования)
lcs, наверное, здесь это как раз и подойдет.
источник

YK

Yulia Kuzmina in R (язык программирования)
данные выглядят так:

a = c(‘менеджер в торговле’, ‘,главный бухгалтер’, ‘специалист’)
b = c(‘торговый представитель’, ‘ведущий специалист с бухгалтерскими функциями’, ‘сценарист’)

задача: найти идентичные корни, но без оверкилла
источник

NK

Nikita Karlushin in R (язык программирования)
источник

ГД

Григорий Демин... in R (язык программирования)
Longest common substring будет и на общие буквы срабатывать. В этом некоторая проблема...
источник

ГД

Григорий Демин... in R (язык программирования)
Слово начинается с одной буквы - уже общий корень... Разве что фильтровать по длине - не менее чем, n букв. Но есть ещё длинные суффиксы
источник

IS

Ilya Shutov in R (язык программирования)
по-моему, здесь утилитарная задача.
разложить резюме из интернета по собственным корзинкам.
эпизодические сбои некритичны.
это этап первичной фильтрации и сортировки.
источник

NK

Nikita Karlushin in R (язык программирования)
"а неудачники нам не нужны"? )
источник

NK

Nikita Karlushin in R (язык программирования)
думаю, что 5-6 букв будет достаточно именно для конкретной задачи, а не для исходного абстрактного примера. тут все-таки речь о конкретных должностях, пересечение там, где оно должно быть, будет большим
источник

IS

Ilya Shutov in R (язык программирования)
для них отдельная корзинка — "неклассифицированные"
источник

ГД

Григорий Демин... in R (язык программирования)
Я бы тогда все резюме лемматизировал через udpipe, потом tf-idf по леммам и кластеризация с косинусной дистанцией. Только по названию должности - много левого будет. Одних менеджеров миллион разных
источник

IS

Ilya Shutov in R (язык программирования)
постановка задачи — полный абстракт. подстройка параметров по реальным датасетам позволит эту сортировку сделать максимально возможным образом. остальное HR досмотрят сами.

Юля, бизнес-задачу правильно угадал?
источник

IS

Ilya Shutov in R (язык программирования)
тут же без полета просили. а так, udpipe хорошо
источник

ГД

Григорий Демин... in R (язык программирования)
Может, ещё LDA перед кластеризацией
источник

ГД

Григорий Демин... in R (язык программирования)
Ну это не полет, кода на так уж много
источник

IS

Ilya Shutov in R (язык программирования)
Юля сама его напишет? вопрос, скорее, в этом.
Цитата: "всем привет, есть простая задача"
источник

YK

Yulia Kuzmina in R (язык программирования)
Юля в курсе, что такое lda и косинусное расстояние, спасибо за беспокойство.
источник

IS

Ivan Struzhkov in R (язык программирования)
Регулярки уже предлагали? Там если корпус слов известен - можно масок руками наделать
источник

EP

Ed P in R (язык программирования)
У меня кровь из глаз потекла от такой фамильярности )
источник