Size: a a a

Natural Language Processing

2021 July 22

K

Kutuz4 in Natural Language Processing
Товарищи, а что лучше всего из вашего опыта подходит для получения эмбеддингов предложений на русском языке? Желательно из моделей huggingface
источник

DD

David Dale in Natural Language Processing
Labse топчик
(вот порезанная версия с только англо-русскими эмбеддингами)

А так вообще в моём посте есть сравнение эмбеддингов русских предлоений
https://habr.com/ru/post/562064/
источник

AE

Anton Eryomin in Natural Language Processing
А чем она лучше/хуже если взять какую-то модель, получающую эмбеддинг для слова и просто посчитать средне арифметическое для такого предложения?
источник

d

dePuff in Natural Language Processing
Даёт контекстные эмбеддинги
Это следующий уровень
источник

AE

Anton Eryomin in Natural Language Processing
Но тут требования возникают к самим прделожениям, т.е. они (предложения) должны находится в достаточно больших текстах верно?
источник

d

dePuff in Natural Language Processing
Нее
источник

DD

David Dale in Natural Language Processing
нет, под контекстом имеется в виду окружающие слова в рамках одного предложения
источник

AE

Anton Eryomin in Natural Language Processing
ааааа, понял.
источник

d

dePuff in Natural Language Processing
Мешок слов + обычные вектора последовательность слов не могут учесть.
А тут что-то ловится
источник

DD

David Dale in Natural Language Processing
Тем, что хороший sentence encoder умеет понимать антонимы, отрицания, и разницу между объектом и субъектом, в отличие от просто среднего вектора из fasttext или word2vec
источник

AE

Anton Eryomin in Natural Language Processing
Нужно будет попробовать для своих задачек, спасибо за наводку.
источник

d

dePuff in Natural Language Processing
Но. Если своих данных прямо много, то действительно можно запинать свои вектора, среднее которых с парой трюков будет решать задачу не хуже
источник

AZ

Andrey Zakharov in Natural Language Processing
лучше всего потестить на разных моделях, надо смотреть что за тексты и на каких текстах обучалась модель эмбеддингов - варианты fasttext/USE/Labse/Muse/bert/ у сбера куча моделей теперь еще на HF
источник

DD

David Dale in Natural Language Processing
Грубо говоря, если усреднить безконтекстные вектора слов, то (1) "мать любит дочь" и (2) "дочь любит мать" будут  идентичны, а (3) "мать не любит дочь" и  (4)"мать ненавидит дочь" будут очень на них похожи.
А sentence encoder поймёт, что (1), (2)  и (3,4) - это разные значения.
источник

AE

Anton Eryomin in Natural Language Processing
А можно ли такую модель заиспользовать просто к заголовкам? Например есть заголовки резюме/вакансий, то насколько хорошо/плохо искать похожие среди такого рода предложений/словосочетаний?
источник

d

dePuff in Natural Language Processing
Нужно пробовать.
Специфика домена может сказать: парень, тебе нужны свои вектора )
источник

KL

Kir L in Natural Language Processing
я правильно понимаю, что use в сравнении не участвовал, вместо него как бы ЛАБСЕ как более сильный вариант?
источник

DD

David Dale in Natural Language Processing
В этом сравнении не участвовал, но вообще надо бы запустить.
По моим частичным оценкам (на датасете по детекции парафраз на русском) Labse чуть-чуть лучше, чем USE. И Labse мне кажется более удобным, т.к. это чистый берт по архитектуре, и huggingface поддерживается.
источник

KL

Kir L in Natural Language Processing
понял, спасибо!
источник

d

dePuff in Natural Language Processing
Мне кажется, если человек запустил USE, его можно стажёром смело брать и не спрашивать про стрессоустойчивость.
Или мне всегда так не везло с ним :)

Готовый ноутбук, готовый хаб, готовая модель и... Всё идёт не так
источник