Size: a a a

Natural Language Processing

2021 August 04

RP

Rodion Proskuryakov in Natural Language Processing
Усреднение векторов fasttext. Сложно найти что-то заметно быстрее.
источник

AZ

Andrey Zakharov in Natural Language Processing
самое быстрое это фасттекст
источник

FF

Futorio Franklin in Natural Language Processing
Есть требования к отсутствию  OOV?
источник

FF

Futorio Franklin in Natural Language Processing
Если нет то можно табличные эмбеддинги использовать, на ft всё равно нужно складывать и усреднять векторы нграмм
источник

FF

Futorio Franklin in Natural Language Processing
navec можно попробовать
источник

K

Kutuz4 in Natural Language Processing
Желательно что-то с очень большим корпусом/токены не в виде слов, а в виде нграмм букв, так как могут попадаться редкие слова
источник

FF

Futorio Franklin in Natural Language Processing
посчитать количество oov токенов
источник

FF

Futorio Franklin in Natural Language Processing
А ну тогда ft
источник

K

Kutuz4 in Natural Language Processing
А если заранее для каждого токена в словаре предпросчитать вектор с помощью чего-то трансформерного и ему сопоставить в таблице, то сильно упадёт в качестве? В случае, если токенам и будут Nграммы букв
источник

FF

Futorio Franklin in Natural Language Processing
Можно обучить свой fasttext и сжать его по этой статье https://habr.com/ru/post/489474/
источник

FF

Futorio Franklin in Natural Language Processing
Либо использовать уже готовый сжатый
источник

A

Arthur in Natural Language Processing
Перед тем как доставать триплеты, желательно, например, поменять местоимения на существительные.
"Гагарин прибыл на космодром. Потом он полетел в космос."
Вместо (он, полетел, в космос) хотим (Гагарин, полетел, в космос). Деконтекстуализация делает второе предложение самодостаточным.
источник

DD

David Dale in Natural Language Processing
Если цель - ускорение, сжимать не надо. В моей статье цель сжатия - уменьшить расходы памяти, а по скорости fasttext лучше брать нежатый.
источник

K

Kutuz4 in Natural Language Processing
А его же получится адекватно применять при отсутствии видеокарт?
источник

FF

Futorio Franklin in Natural Language Processing
А ну да, прошу прощения, действительно у сжатого скорость меньше.
источник

DD

David Dale in Natural Language Processing
Да, я его вообще делал для применения на heroku со слабеньким CPU и 500мб памяти
источник

A

Anton in Natural Language Processing
Даа, теперь понял. Интересно для русского языка будет эффект?
источник

AL

Andrew Lays in Natural Language Processing
всем привет 👋
я совсем не от мира nlp поэтому вопрос может быть очень по нубски составлен, но я попробую
пытаюсь определять "похожесть" двух статей, на русском
сейчас использую spaCy с их моделькой ru_core_news_lg
насколько я понимаю для определения похожести у них под капотом используется метод cosine similarity, поэтому важно использовать модель с векторами
но что-то точность на выходе совсем мне не нравится(
приемлемые результаты только если статьи совсем-совсем разные
попробовал проверить наличие векторов в модельке для каких-то ключевых слов, типа Белсат, Навальный, МОК, ФБК, а их нет
что посоветуете: использовать другие модели или лучше искать другие методы сравнения?
источник

A

Arthur in Natural Language Processing
Для русского языка нужно тренировать другую модель. Там внутри T5, она не обучалась на русском.
источник

NK

Nikolay Karelin in Natural Language Processing
Для длинных текстов часто TF-IDF (после лемматизации и при тренировке на 1000-2000 релевантных примеров) дажет самый лучший результат.
источник