Size: a a a

Natural Language Processing

2021 July 19

AE

Anton Eryomin in Natural Language Processing
Добрый день! а какие сейчас самые самые SOTA эмбеддинги для русского языка? Нужно поиграться с текстами, хочется понять отправную точку.
источник

SancheZz Мов in Natural Language Processing
Вам дистрибутивные модели или трансформеры?)
источник

AE

Anton Eryomin in Natural Language Processing
хотелось бы конечно Трансформеры, но и дистрибутивные тоже хорошо
источник

KL

Kir L in Natural Language Processing
если не нужно прям сота пересота, а достаточно гуд энаф из коробки, то для предложений или недлинных текстов посоветую USE.
источник

t2

tonko 22 in Natural Language Processing
А какие сейчас самые популярные (sota/cheap tradeoff) подходы ддя получения эмбеддингов длинных текстов?
источник

YA

Yerlan Amanzholov in Natural Language Processing
Всем привет! Есть задача классификации интентов, но проблема в том, что в среднем 10-15 примеров для каждого интента и большое количество интентов. Есть ли какой нибудь способ получить нормальное качество на таком датасете или это гиблое дело?
источник

KL

Kir L in Natural Language Processing
нет, это вполне нормальный датасет для такой задачи. Но по лучшему выбору подхода/модели не подскажу ((( наверно надо гуглить по запросу few-shot text classification
источник

KL

Kir L in Natural Language Processing
сам собираюсь в ближайшее время делать модель по таким же данным, думаю начать с чего-то типа USE + классические алгоритмы
источник

ДС

Дмитрий Симаков... in Natural Language Processing
Эмбеддинги + knn
источник

KL

Kir L in Natural Language Processing
поддержу
источник

YA

Yerlan Amanzholov in Natural Language Processing
Примерно такой пайплай используем, хотелось улучшить и пробовал файнтюнить трансформеры, но качество не радует
источник

ДС

Дмитрий Симаков... in Natural Language Processing
Вообще, few shot подходы есть специальные. Но я всего пару раз запускал.
источник

ДС

Дмитрий Симаков... in Natural Language Processing
Можно попробовать пофайнтюнить при помощи метрик ленинг или unsupervised (если самих текстов много). Но это все не факт, что заведётся.
источник

ДС

Дмитрий Симаков... in Natural Language Processing
Типо Prototypical Network
источник

YA

Yerlan Amanzholov in Natural Language Processing
Одна из главных проблем то, что модель даже если предсказывает правильно, но с очень маленьким конфиденсом
источник

YA

Yerlan Amanzholov in Natural Language Processing
Нормально ли такое при большом количестве классов?
источник

KL

Kir L in Natural Language Processing
если суммарный конфиденс 1, то это очевидно так и будет(
источник

KL

Kir L in Natural Language Processing
хотя нет, наверно я не совсем прав
источник

A

Andrey in Natural Language Processing
отчасти потому что примеров мало, отчасти потому что интентов много.

лучше knn хз что придумать тут, модель поближе к домену поискать может стоит.
источник

d

dePuff in Natural Language Processing
Можно эмбединги свернуть в эмбединги меньшего размера полносвязной и триплет лоссом
источник