Телеграмм чат группы natural_language

Я крайне признателен за помощь в решении, еще раз огромное спасибо!

Если я правильно понял, есть несколько возможных решений, которые можно как независимо друг от друга применить, так и комплексом:
1) Увеличение числа классов (pos-tags) через IOB и дальнейший fine-tune BERT модели штатными средствами либы Transformers
2) создание отдельного CRF-слоя для улучшения согласованности между соседними словами
3) создание дополнительного слоя "внимания" для более детальной обработки некоторых объектов
4) Разморозка и fine-tune нескольких последних блоков BERT

P.S. Можно ли как-то применить "большой" и неразмеченый датасет для улучшения результатов для данной задачи?

источник

22:47пожаловаться #6

David Dale in Natural Language Processing

> P.S. Можно ли как-то применить "большой" и неразмеченый датасет для улучшения результатов для данной задачи?

Приходят в голову сразу несколько идей:
1) Перед обучением на POS-tagging, дообучить BERT на MLM задаче на неразмеченном датасете. Поскольку исходный BERT был мультиязычным, это поможет ему лучше настроиться на целевой язык.
2) Разметить этот датасет какой-нибудь более простой моделью (может быть, для вашего языка уже есть UDPipe модель?), получив таким образом "серебряную" разметку для обучения бертовой модели на ней.
3) Обучившись на размеченном датасете, прогнать неразмеченный через модель, и используя оценки неопределённости и активное обучение выбрать небольшой датасет, доразметка которого принесёт максимальную пользу.

источник

22:57пожаловаться #7

Aydar Nasyrov in Natural Language Processing

К сожалению, если что-то и выпускается для татарского языка, то почти всегда "из соседнего кабинета", т.е. из-под крыши организации, в которой работаю))
Поэтому из трех вариантов выше: первый и/или последний будут выбраны в качестве решения.

источник

23:13пожаловаться #8

Aydar Nasyrov in Natural Language Processing

Уважаемые эксперты, премного благодарен Вам за понятные объяснения и оперативные ответы, теперь снова в бой с новыми мыслями и идеями

источник

23:15пожаловаться #9

2021 June 15

Егорка in Natural Language Processing

А есть возможное теоретическое обоснование чем аттеншен в данном случае лучше чем модели на основе скрытых цепей Маркова ?

источник

00:05пожаловаться #10

Natalia in Natural Language Processing

особенно с учётом богатой морфологии и отсутствия конкретного языка в mbert

источник

00:08пожаловаться #11

SМ

SancheZz Мов in Natural Language Processing

Только гипотезы

источник

00:27пожаловаться #12

SМ

SancheZz Мов in Natural Language Processing

Почему не используется crf вместо аттеншн в трансформере?

источник

00:28пожаловаться #13

SМ

SancheZz Мов in Natural Language Processing

Ну например, можно было как-то учитываться позиционность и пр вещи на свойствах марковских цепей в сиквенсе

источник

00:28пожаловаться #14

SМ

SancheZz Мов in Natural Language Processing

Поэтому гипотеза была такая раз неплохо мультихед вычленяет разные смыслы в сиквенсе в берте почему бы он не может эти же смыслы относительно нер вычленять?

источник

00:29пожаловаться #15

SМ

SancheZz Мов in Natural Language Processing

Ну а дальше просто дело эксперимента, попробовать две архитектуры где голова с crf и блоком трансформера (без crf) и посмотреть что лучше.

источник

00:30пожаловаться #16

SМ

SancheZz Мов in Natural Language Processing

Мы используем свой ру берт конечно не мультиязык

источник

00:31пожаловаться #17