Всем Доброго вечера!
Задача классификации частей речи в предложении, наверное с натяжкой можно назвать это NER-ом.
Проблема: в слове, разбитом на токены, первый токен всегда имеет верную принадежность к одному из 18 POS тегов, а последующие токены слова имеют стабильно тег Noun.
Модель переобучал, данные менял и вручную всё инспектировал, плюс по этой беседе прошелся, но никакого решения не нашел.
Использую HuggingFace с мультиязыным BERT для моего низкоресурсного языка (всего пол-миллиона классифицированных слов)
Есть идеи как это починить?
Пример "для" русского языка:
Артур поел вкусный ужин
Ар - Noun
##тур - Noun
по - VERB
##ел - Noun#ел - Noun (должен быть VERB)
вкус - AD
##ный - Noun#ный - Noun (должен быть AD)
уж - Noun
##ин - Noun