Size: a a a

Natural Language Processing

2021 June 14

SancheZz Мов in Natural Language Processing
Согласен
источник

SancheZz Мов in Natural Language Processing
Мы сначала сами сиквенсы берт юзали в bilstm crf
источник

SancheZz Мов in Natural Language Processing
Потом заменили на классик блок аттеншн и стало лучше
источник

SancheZz Мов in Natural Language Processing
Пару блоков сверху
источник

SancheZz Мов in Natural Language Processing
Ну или разморозь пару последних блоков берта и их тюнь
источник

AN

Aydar Nasyrov in Natural Language Processing
Я крайне признателен за помощь в решении, еще раз огромное спасибо!

Если я правильно понял, есть несколько возможных решений, которые можно как независимо друг от друга применить, так и комплексом:
1) Увеличение числа классов (pos-tags) через IOB и дальнейший fine-tune BERT модели штатными средствами либы Transformers
2) создание отдельного CRF-слоя для улучшения согласованности между соседними словами
3) создание дополнительного слоя "внимания" для более детальной обработки некоторых объектов
4) Разморозка и fine-tune нескольких последних блоков BERT

P.S. Можно ли как-то применить "большой" и неразмеченый датасет для улучшения результатов для данной задачи?
источник

DD

David Dale in Natural Language Processing
> P.S. Можно ли как-то применить "большой" и неразмеченый датасет для улучшения результатов для данной задачи?

Приходят в голову сразу несколько идей:
1) Перед обучением на POS-tagging, дообучить BERT на MLM задаче на неразмеченном датасете. Поскольку исходный BERT был мультиязычным, это поможет ему лучше настроиться на целевой язык.
2) Разметить этот датасет какой-нибудь более простой моделью (может быть, для вашего языка уже есть UDPipe модель?), получив таким образом "серебряную" разметку для обучения бертовой модели на ней.
3) Обучившись на размеченном датасете, прогнать неразмеченный через модель, и используя оценки неопределённости и активное обучение выбрать небольшой датасет, доразметка которого принесёт максимальную пользу.
источник

AN

Aydar Nasyrov in Natural Language Processing
К сожалению, если что-то и выпускается для татарского языка, то почти всегда "из соседнего кабинета", т.е. из-под крыши организации, в которой работаю))
Поэтому из трех вариантов выше: первый и/или последний будут выбраны в качестве решения.
источник

AN

Aydar Nasyrov in Natural Language Processing
Уважаемые эксперты, премного благодарен Вам за понятные объяснения и оперативные ответы, теперь снова в бой с новыми мыслями и идеями
источник
2021 June 15

Е

Егорка in Natural Language Processing
А есть возможное теоретическое обоснование чем аттеншен в данном случае лучше чем модели на основе скрытых цепей Маркова ?
источник

N

Natalia in Natural Language Processing
особенно с учётом богатой морфологии и отсутствия конкретного языка в mbert
источник

SancheZz Мов in Natural Language Processing
Только гипотезы
источник

SancheZz Мов in Natural Language Processing
Почему не используется crf вместо аттеншн в трансформере?
источник

SancheZz Мов in Natural Language Processing
Ну например, можно было как-то учитываться позиционность и пр вещи на свойствах марковских цепей в сиквенсе
источник

SancheZz Мов in Natural Language Processing
Поэтому гипотеза была такая раз неплохо мультихед вычленяет разные смыслы в сиквенсе в берте почему бы он не может эти же смыслы относительно нер вычленять?
источник

SancheZz Мов in Natural Language Processing
Ну а дальше просто дело эксперимента, попробовать две архитектуры где голова с crf и блоком трансформера (без crf) и посмотреть что лучше.
источник

SancheZz Мов in Natural Language Processing
Мы используем свой ру берт конечно не мультиязык
источник

N

Natalia in Natural Language Processing
ну я про вопрошающего
источник

N

Natalia in Natural Language Processing
источник

SancheZz Мов in Natural Language Processing
А ссылка зачем)
источник