Size: a a a

Natural Language Processing

2021 June 14

IN

Ilya Nikitin in Natural Language Processing
не знаю, сработает ли это для русского только
источник

YA

Yerlan Amanzholov in Natural Language Processing
Всем привет! Сейчас пытаюсь квантизировать трансформерную модель, пробовал dynamic-onnx-int8 квантизацию, но модель серьезно проседает на тестовых данных (около 10% accuracy). Есть ли какие нибудь трюки чтобы квантизировать трансформерные модели без серьзной потери качества?
источник

FF

Futorio Franklin in Natural Language Processing
Можно попробовать квантизовать в float16
источник

AN

Aydar Nasyrov in Natural Language Processing
Всем Доброго вечера!

Задача классификации частей речи в предложении, наверное с натяжкой можно назвать это NER-ом.
Проблема: в слове, разбитом на токены, первый токен всегда имеет верную принадежность к одному из 18 POS тегов, а последующие токены слова имеют стабильно тег Noun.

Модель переобучал, данные менял и вручную всё инспектировал, плюс по этой беседе прошелся, но никакого решения не нашел.
Использую HuggingFace с мультиязыным BERT для моего низкоресурсного языка (всего пол-миллиона классифицированных слов)

Есть идеи как это починить?

Пример "для" русского языка:
Артур поел вкусный ужин
Ар - Noun
##тур - Noun
по - VERB
##ел - Noun#ел - Noun (должен быть VERB)
вкус - AD
##ный - Noun#ный - Noun (должен быть AD)
уж - Noun
##ин - Noun
источник

N

Natalia in Natural Language Processing
ну во-первых, таки не NER, а частеречная разметка, pos-tagging, классов в NER обычно меньше и чаще релевантно наличие многословных единиц
источник

N

Natalia in Natural Language Processing
во-вторых, а подходы попроще не хотите? есть ли для этого малоресурсного языка словари, корпуса вообще?
источник

AN

Aydar Nasyrov in Natural Language Processing
Благодарю за ответ!

Первое замечание принял во внимание.
Была необходимость работы именно с BERT, поэтому кроме использования BertForTokenClassification из Transformers, ничего более в голову не пришло, буду рад услышать другие предложения.
Касаемо корпуса: есть хороший неразмеченный корпус, но он мелковат - 9 млн предложений, размеченный же еще меньше - всего 30 тысяч предложений, однако каждое слово имеет pos-tag
источник

DD

David Dale in Natural Language Processing
Может быть полезно поверх BERT'а добавить CRF слой - это чуть замедлит инференс, зато сделает метки соседних токенов более согласованными.
Ну и, коли используются subword токены, можно их попробовать в IOB закодировать.
В общем, всё то же что и для NERа, структурно-то задачи действительно очень близки.
источник

SancheZz Мов in Natural Language Processing
Сабворды маст хэв переразметить
источник

SancheZz Мов in Natural Language Processing
Это улучшит качество
источник

SancheZz Мов in Natural Language Processing
+ crf гуд, но доп аттеншн норм учится даже лучше срф
источник

AN

Aydar Nasyrov in Natural Language Processing
Благодарю за ответ!
Действительно, может быть проблема в связанности, ведь у меня стабильно все токены в последующие после первого в слове определяются, как Noun.
Касаемо IOB, рост числа тегов с 18 до 32 (союзы, частицы и тд не в счёт), не будет ли чем-то странным?
источник

SancheZz Мов in Natural Language Processing
Ведь crf аналог аттеншн ранее был для сиквенсов которые имеют Марковские свойства
источник

SancheZz Мов in Natural Language Processing
Мы сравнивали
источник

DD

David Dale in Natural Language Processing
Рост числа классов - не страшно, если классы понятные
источник

SancheZz Мов in Natural Language Processing
Просто переведи нер разметку с уровня токенов на уровень сабтокенов
источник

SancheZz Мов in Natural Language Processing
Которые токены берта уже
источник

SancheZz Мов in Natural Language Processing
Число классов останется тем же
источник

SancheZz Мов in Natural Language Processing
@cointegrated что думаешь?
источник

DD

David Dale in Natural Language Processing
Про доп.атеншн против CRF - не знаю, не сравнивал.
Про число классов - кажется, в текущей схеме Айдара нету I-тегов (только B-), а во варианте, который мы предлагаем, они появятся - и это норм.
источник