Size: a a a

Natural Language Processing

2021 July 23

DD

David Dale in Natural Language Processing
2) Помимо MLM можно прикрутить лосс от Electra: половина токенов заменяется, но не на [mask] или случайный токен, а на токен, предсказанный бертом. А задача нового берта - классифицировать токен, оригинальный он, или был изменён.
источник

AP

Arsen Plus in Natural Language Processing
Спасибо
источник

AI

Aleksey Ivanov in Natural Language Processing
Присоединяюсь к первому вопросу, тоже така задачка стоит. Из идей кроме усреднения только второй Берт поверх выхлопа CLS

По второму кажется, что MLM не достаточно. MLM  для Seq2Seq задач. Во всяком случае стимула у Берта ложить в CLS что-то важное у него нет. Нужно наверно обучать задачку NSP. Или, если в корпусе мало документов с больше чем одно предложение, можно попробовать TSDAE
источник

DD

David Dale in Natural Language Processing
Я не специалист по эмбеддингам документов, но интуиция подсказывает, что если смысл отдельно взятого предложения можно полностью уложить в 500-мерный вектор, то смысл документа размером в несколько абзацев - уже не упихнешь без потери информации. Поэтому надеяться на получение "универсальных" эмбеддингов документов не стоит, и лучше сразу обучать эмбеддинги для конкретной supervised задачи, которую вы собираетесь решать, и на конкретном домене.
источник

SancheZz Мов in Natural Language Processing
Я кстати в итоге сравнил
источник

SancheZz Мов in Natural Language Processing
Cls хуже работает у labse на retrieval  тасках чем mean pool
источник

SancheZz Мов in Natural Language Processing
И при тюнинге тоже
источник

SancheZz Мов in Natural Language Processing
На одной и той же архитектуре разница в 9% пунктов
источник

SancheZz Мов in Natural Language Processing
Язык ру и англ
источник

EE

E E in Natural Language Processing
Интуиция подсказывает то же самое и про одно предложение)) Особенно если потом просто считать необучаемое расстояние между эмбедингами документов...
источник

EE

E E in Natural Language Processing
А вот странно,  ведь последний слой Может научиться делать mean polling на cls токене, если это работает лучше всего.  Почему он так не делает? Или тупо переобучение? Интересно посмотреть веса голов внимания на cls токене после обучения.
источник

SancheZz Мов in Natural Language Processing
cls токен видит ток эмбеддинги токенов
источник

SancheZz Мов in Natural Language Processing
Mean pool видит токены все относительно всех
источник

SancheZz Мов in Natural Language Processing
Достаточно сделать аттеншн рассмотрение относительно cls чтобы понять что он слабее по контексту чем mean pool
источник

EE

E E in Natural Language Processing
Непонятно. Вроде же attention head усредняет values вектора с предыдущего слоя. Значит на выходе на cls токене средее взвешенгое выходов с предпоследнего слоя со всех токенов. Пропущенные еще через ffnn конечно.
источник

EE

E E in Natural Language Processing
То есть разница только в том, что там усредняются представления с предпоследнего слоя,  а не с последнего.  Зато веса обучаемые, да еще ffnn Может что-то сделать полезное со средним.
источник

EE

E E in Natural Language Processing
Вот это тоже просьба объяснить. Избежать лика чего и подсматривания куда?
источник

SancheZz Мов in Natural Language Processing
Да разница в этом
источник

SancheZz Мов in Natural Language Processing
Но и пуллинг тоже тюнится
источник

SancheZz Мов in Natural Language Processing
Как в гпт ток левосторонний аттеншн чтобы справа от токена не смотреть
источник