Телеграмм чат группы natural_language

Size: a a a

Natural Language Processing

2834 membersпожаловаться на группу

2021 June 14

Ilya Nikitin in Natural Language Processing

не знаю, сработает ли это для русского только

источник

18:22пожаловаться #1

Yerlan Amanzholov in Natural Language Processing

Всем привет! Сейчас пытаюсь квантизировать трансформерную модель, пробовал dynamic-onnx-int8 квантизацию, но модель серьезно проседает на тестовых данных (около 10% accuracy). Есть ли какие нибудь трюки чтобы квантизировать трансформерные модели без серьзной потери качества?

источник

18:26пожаловаться #2

Futorio Franklin in Natural Language Processing

Можно попробовать квантизовать в float16

источник

18:27пожаловаться #3

Aydar Nasyrov in Natural Language Processing

Всем Доброго вечера!

Задача классификации частей речи в предложении, наверное с натяжкой можно назвать это NER-ом.
Проблема: в слове, разбитом на токены, первый токен всегда имеет верную принадежность к одному из 18 POS тегов, а последующие токены слова имеют стабильно тег Noun.

Модель переобучал, данные менял и вручную всё инспектировал, плюс по этой беседе прошелся, но никакого решения не нашел.
Использую HuggingFace с мультиязыным BERT для моего низкоресурсного языка (всего пол-миллиона классифицированных слов)

Есть идеи как это починить?

Пример "для" русского языка:
Артур поел вкусный ужин
Ар - Noun
##тур - Noun
по - VERB
##ел - Noun#ел - Noun (должен быть VERB)
вкус - AD
##ный - Noun#ный - Noun (должен быть AD)
уж - Noun
##ин - Noun

источник

19:01пожаловаться #4

Natalia in Natural Language Processing

ну во-первых, таки не NER, а частеречная разметка, pos-tagging, классов в NER обычно меньше и чаще релевантно наличие многословных единиц

источник

19:14пожаловаться #5

Natalia in Natural Language Processing

во-вторых, а подходы попроще не хотите? есть ли для этого малоресурсного языка словари, корпуса вообще?

источник

19:14пожаловаться #6

Aydar Nasyrov in Natural Language Processing

Благодарю за ответ!

Первое замечание принял во внимание.
Была необходимость работы именно с BERT, поэтому кроме использования BertForTokenClassification из Transformers, ничего более в голову не пришло, буду рад услышать другие предложения.
Касаемо корпуса: есть хороший неразмеченный корпус, но он мелковат - 9 млн предложений, размеченный же еще меньше - всего 30 тысяч предложений, однако каждое слово имеет pos-tag

источник

21:40пожаловаться #7

David Dale in Natural Language Processing

Может быть полезно поверх BERT'а добавить CRF слой - это чуть замедлит инференс, зато сделает метки соседних токенов более согласованными.
Ну и, коли используются subword токены, можно их попробовать в IOB закодировать.
В общем, всё то же что и для NERа, структурно-то задачи действительно очень близки.

источник

21:59пожаловаться #8

SМ

SancheZz Мов in Natural Language Processing

Сабворды маст хэв переразметить

источник

22:21пожаловаться #9

SМ

SancheZz Мов in Natural Language Processing

Это улучшит качество

источник

22:21пожаловаться #10

SМ

SancheZz Мов in Natural Language Processing

+ crf гуд, но доп аттеншн норм учится даже лучше срф

источник

22:21пожаловаться #11

Aydar Nasyrov in Natural Language Processing

Благодарю за ответ!
Действительно, может быть проблема в связанности, ведь у меня стабильно все токены в последующие после первого в слове определяются, как Noun.
Касаемо IOB, рост числа тегов с 18 до 32 (союзы, частицы и тд не в счёт), не будет ли чем-то странным?

источник

22:21пожаловаться #12

SМ

SancheZz Мов in Natural Language Processing

Ведь crf аналог аттеншн ранее был для сиквенсов которые имеют Марковские свойства

источник

22:22пожаловаться #13

SМ

SancheZz Мов in Natural Language Processing

Мы сравнивали

источник

22:22пожаловаться #14

David Dale in Natural Language Processing

Рост числа классов - не страшно, если классы понятные

источник

22:22пожаловаться #15

SМ

SancheZz Мов in Natural Language Processing

Просто переведи нер разметку с уровня токенов на уровень сабтокенов

источник

22:23пожаловаться #16

SМ

SancheZz Мов in Natural Language Processing

Которые токены берта уже

источник

22:23пожаловаться #17

SМ

SancheZz Мов in Natural Language Processing

Число классов останется тем же

источник

22:23пожаловаться #18

SМ

SancheZz Мов in Natural Language Processing

@cointegrated что думаешь?

источник

22:24пожаловаться #19

David Dale in Natural Language Processing

Про доп.атеншн против CRF - не знаю, не сравнивал.
Про число классов - кажется, в текущей схеме Айдара нету I-тегов (только B-), а во варианте, который мы предлагаем, они появятся - и это норм.

источник

22:26пожаловаться #20