Телеграмм чат группы natural_language_processing страница 1348

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Natural Language Processing

3198 membersпожаловаться на группу

2021 July 23

DD

David Dale in Natural Language Processing

2) Помимо MLM можно прикрутить лосс от Electra: половина токенов заменяется, но не на [mask] или случайный токен, а на токен, предсказанный бертом. А задача нового берта - классифицировать токен, оригинальный он, или был изменён.

источник

14:53пожаловаться #1

AP

Arsen Plus in Natural Language Processing

Спасибо

источник

14:54пожаловаться #2

AI

Aleksey Ivanov in Natural Language Processing

Присоединяюсь к первому вопросу, тоже така задачка стоит. Из идей кроме усреднения только второй Берт поверх выхлопа CLS

По второму кажется, что MLM не достаточно. MLM для Seq2Seq задач. Во всяком случае стимула у Берта ложить в CLS что-то важное у него нет. Нужно наверно обучать задачку NSP. Или, если в корпусе мало документов с больше чем одно предложение, можно попробовать TSDAE

источник

19:35пожаловаться #3

DD

David Dale in Natural Language Processing

Я не специалист по эмбеддингам документов, но интуиция подсказывает, что если смысл отдельно взятого предложения можно полностью уложить в 500-мерный вектор, то смысл документа размером в несколько абзацев - уже не упихнешь без потери информации. Поэтому надеяться на получение "универсальных" эмбеддингов документов не стоит, и лучше сразу обучать эмбеддинги для конкретной supervised задачи, которую вы собираетесь решать, и на конкретном домене.

источник

19:41пожаловаться #4

SМ

SancheZz Мов in Natural Language Processing

Я кстати в итоге сравнил

источник

20:00пожаловаться #5

SМ

SancheZz Мов in Natural Language Processing

Cls хуже работает у labse на retrieval тасках чем mean pool

источник

20:00пожаловаться #6

SМ

SancheZz Мов in Natural Language Processing

И при тюнинге тоже

источник

20:01пожаловаться #7

SМ

SancheZz Мов in Natural Language Processing

На одной и той же архитектуре разница в 9% пунктов

источник

20:01пожаловаться #8

SМ

SancheZz Мов in Natural Language Processing

Язык ру и англ

источник

20:02пожаловаться #9

EE

E E in Natural Language Processing

Интуиция подсказывает то же самое и про одно предложение)) Особенно если потом просто считать необучаемое расстояние между эмбедингами документов...

источник

21:04пожаловаться #10

EE

E E in Natural Language Processing

А вот странно, ведь последний слой Может научиться делать mean polling на cls токене, если это работает лучше всего. Почему он так не делает? Или тупо переобучение? Интересно посмотреть веса голов внимания на cls токене после обучения.

источник

21:09пожаловаться #11

SМ

SancheZz Мов in Natural Language Processing

cls токен видит ток эмбеддинги токенов

источник

21:48пожаловаться #12

SМ

SancheZz Мов in Natural Language Processing

Mean pool видит токены все относительно всех

источник

21:49пожаловаться #13

SМ

SancheZz Мов in Natural Language Processing

Достаточно сделать аттеншн рассмотрение относительно cls чтобы понять что он слабее по контексту чем mean pool

источник

21:49пожаловаться #14

EE

E E in Natural Language Processing

Непонятно. Вроде же attention head усредняет values вектора с предыдущего слоя. Значит на выходе на cls токене средее взвешенгое выходов с предпоследнего слоя со всех токенов. Пропущенные еще через ffnn конечно.

источник

23:28пожаловаться #15

EE

E E in Natural Language Processing

То есть разница только в том, что там усредняются представления с предпоследнего слоя, а не с последнего. Зато веса обучаемые, да еще ffnn Может что-то сделать полезное со средним.

источник

23:30пожаловаться #16

EE

E E in Natural Language Processing

Вот это тоже просьба объяснить. Избежать лика чего и подсматривания куда?

источник

23:32пожаловаться #17

SМ

SancheZz Мов in Natural Language Processing

Да разница в этом

источник

23:46пожаловаться #18

SМ

SancheZz Мов in Natural Language Processing

Но и пуллинг тоже тюнится

источник

23:46пожаловаться #19

SМ

SancheZz Мов in Natural Language Processing

Как в гпт ток левосторонний аттеншн чтобы справа от токена не смотреть

источник

23:47пожаловаться #20