Телеграмм чат группы natural_language

А если заранее для каждого токена в словаре предпросчитать вектор с помощью чего-то трансформерного и ему сопоставить в таблице, то сильно упадёт в качестве? В случае, если токенам и будут Nграммы букв

источник

17:10пожаловаться #9

Futorio Franklin in Natural Language Processing

Можно обучить свой fasttext и сжать его по этой статье https://habr.com/ru/post/489474/

Хабр

Как сжать модель fastText в 100 раз

Модель fastText — одно из самых эффективных векторных представлений слов для русского языка. Однако её прикладная польза страдает из-за внушительных (несколько г...

источник

17:11пожаловаться #10

Futorio Franklin in Natural Language Processing

Либо использовать уже готовый сжатый

источник

17:11пожаловаться #11

Arthur in Natural Language Processing

Перед тем как доставать триплеты, желательно, например, поменять местоимения на существительные.
"Гагарин прибыл на космодром. Потом он полетел в космос."
Вместо (он, полетел, в космос) хотим (Гагарин, полетел, в космос). Деконтекстуализация делает второе предложение самодостаточным.

источник

17:15пожаловаться #12

David Dale in Natural Language Processing

Если цель - ускорение, сжимать не надо. В моей статье цель сжатия - уменьшить расходы памяти, а по скорости fasttext лучше брать нежатый.

источник

17:22пожаловаться #13

Kutuz4 in Natural Language Processing

А его же получится адекватно применять при отсутствии видеокарт?

источник

17:23пожаловаться #14

Futorio Franklin in Natural Language Processing

А ну да, прошу прощения, действительно у сжатого скорость меньше.

источник

17:25пожаловаться #15

David Dale in Natural Language Processing

Да, я его вообще делал для применения на heroku со слабеньким CPU и 500мб памяти

источник

17:26пожаловаться #16

Anton in Natural Language Processing

Даа, теперь понял. Интересно для русского языка будет эффект?

источник

17:33пожаловаться #17

Andrew Lays in Natural Language Processing

всем привет 👋
я совсем не от мира nlp поэтому вопрос может быть очень по нубски составлен, но я попробую
пытаюсь определять "похожесть" двух статей, на русском
сейчас использую spaCy с их моделькой ru_core_news_lg
насколько я понимаю для определения похожести у них под капотом используется метод cosine similarity, поэтому важно использовать модель с векторами
но что-то точность на выходе совсем мне не нравится(
приемлемые результаты только если статьи совсем-совсем разные
попробовал проверить наличие векторов в модельке для каких-то ключевых слов, типа Белсат, Навальный, МОК, ФБК, а их нет
что посоветуете: использовать другие модели или лучше искать другие методы сравнения?

источник

17:49пожаловаться #18

Arthur in Natural Language Processing

Для русского языка нужно тренировать другую модель. Там внутри T5, она не обучалась на русском.

источник

17:50пожаловаться #19

Nikolay Karelin in Natural Language Processing

Для длинных текстов часто TF-IDF (после лемматизации и при тренировке на 1000-2000 релевантных примеров) дажет самый лучший результат.

источник

17:52пожаловаться #20