всем привет 👋
я совсем не от мира nlp поэтому вопрос может быть очень по нубски составлен, но я попробую
пытаюсь определять "похожесть" двух статей, на русском
сейчас использую spaCy с их моделькой
ru_core_news_lgнасколько я понимаю для определения похожести у них под капотом используется метод cosine similarity, поэтому важно использовать модель с векторами
но что-то точность на выходе совсем мне не нравится(
приемлемые результаты только если статьи совсем-совсем разные
попробовал проверить наличие векторов в модельке для каких-то ключевых слов, типа Белсат, Навальный, МОК, ФБК, а их нет
что посоветуете: использовать другие модели или лучше искать другие методы сравнения?