> P.S. Можно ли как-то применить "большой" и неразмеченый датасет для улучшения результатов для данной задачи?
Приходят в голову сразу несколько идей:
1) Перед обучением на POS-tagging, дообучить BERT на MLM задаче на неразмеченном датасете. Поскольку исходный BERT был мультиязычным, это поможет ему лучше настроиться на целевой язык.
2) Разметить этот датасет какой-нибудь более простой моделью (может быть, для вашего языка уже есть
UDPipe модель?), получив таким образом "серебряную" разметку для обучения бертовой модели на ней.
3) Обучившись на размеченном датасете, прогнать неразмеченный через модель, и используя
оценки неопределённости и активное обучение выбрать небольшой датасет, доразметка которого принесёт максимальную пользу.