Телеграмм чат группы natural_language

Что касается замены имён, можно попробовать генерировать несколько саммари, выделять все именованные сущности NER'ом, и понижать приоритет тех саммари, в которых появились сущности, не упомянутые в исходном тексте.

источник

09:28пожаловаться #8

Anton in Natural Language Processing

Какое ваше мнение по целесообразности дообучения модели byT5 на русском языке для исправления опечаток (в частности после ASR)?
Судя по опыту одной обученной сетки для немецкого языка - выглядит неплохо https://huggingface.co/flozi00/byt5-german-grammar. По информации он обучал на 600 000 текстах. Осталось научиться генерировать аналогичные ошибки для системы распознавания речи)))

huggingface.co

flozi00/byt5-german-grammar · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

источник

11:27пожаловаться #9

Alex Wortega in Natural Language Processing

Да там я починил

источник

11:34пожаловаться #10

Alex Wortega in Natural Language Processing

Все сильно прозен

источник

11:34пожаловаться #11

СС

Сёрежа Серёжа... in Natural Language Processing

У меня не очень хорошо вышло. Было около 60к текстов на английском, делал два варианта: текст_с_ошибками -> правильный_ответ и наоборот. Хотя если взять модель и корпус побольше, то может и сработает.

источник

11:52пожаловаться #12

Anton in Natural Language Processing

small использовали? какой длины последовательность на входе была примерно? параметр генерации при обучении выставляли в max?

источник

11:57пожаловаться #13

СС

Сёрежа Серёжа... in Natural Language Processing

Small, вроде по 256 на вход и выход. Насчет генерации: крутил все возможные генерации в huggingface, особо в качестве плюсов не давали

источник

12:05пожаловаться #14

СС