Size: a a a

Natural Language Processing

2021 July 07

d

dePuff in Natural Language Processing
А это может быть популярный суффикс
источник

IG

Ilya Gusev in Natural Language Processing
Ну да, запретим кусочки, которых не было в оригинальном тексте
источник

d

dePuff in Natural Language Processing
А... Понял
Забавный хак
источник
2021 July 08

GF

Grigory Frantsuzov in Natural Language Processing
Как и все предыдущие с гпт, с семантикой проблемы у них
источник

GF

Grigory Frantsuzov in Natural Language Processing
Не слишком ли радикально?
источник

d

dePuff in Natural Language Processing
NoBadWordsLogitsProcessor посмотреть и переписать под свои нужды)
источник

d

dePuff in Natural Language Processing
Как я понимаю, там нужно -inf скор выставить тому, что не в списке разрешённых
источник

DD

David Dale in Natural Language Processing
Что касается замены имён, можно попробовать генерировать несколько саммари, выделять все именованные сущности NER'ом, и понижать приоритет тех саммари, в которых появились сущности, не упомянутые в исходном тексте.
источник

A

Anton in Natural Language Processing
Какое ваше мнение по целесообразности дообучения модели byT5 на русском языке для исправления опечаток (в частности после ASR)?
Судя по опыту одной обученной сетки для немецкого языка - выглядит неплохо https://huggingface.co/flozi00/byt5-german-grammar. По информации он обучал на 600 000 текстах. Осталось научиться генерировать аналогичные ошибки для системы распознавания речи)))
источник

AW

Alex Wortega in Natural Language Processing
Да там я починил
источник

AW

Alex Wortega in Natural Language Processing
Все сильно прозен
источник

СС

Сёрежа Серёжа... in Natural Language Processing
У меня не очень хорошо вышло. Было около 60к текстов на английском, делал два варианта: текст_с_ошибками -> правильный_ответ и наоборот. Хотя если взять модель и корпус побольше, то может и сработает.
источник

A

Anton in Natural Language Processing
small использовали? какой длины последовательность на входе была примерно? параметр генерации при обучении выставляли в max?
источник

СС

Сёрежа Серёжа... in Natural Language Processing
Small, вроде по 256 на вход и выход. Насчет генерации: крутил все возможные генерации в huggingface, особо в качестве плюсов не давали
источник

СС

Сёрежа Серёжа... in Natural Language Processing
(еще была идея вместо текстов подавать фонемы из cmudict, но я забил)
источник

A

Anton in Natural Language Processing
256 токенов?
там если использовать их trainer и параметр generate=True, то надо при загрузке базовой модели установить параметр max_len вручную
источник

A

Anton in Natural Language Processing
автоматически он выставлен в 20 токенов
источник

СС

Сёрежа Серёжа... in Natural Language Processing
Я через их скрипт делал, --max_source_length 256 --max_target_length 256
источник

СС

Сёрежа Серёжа... in Natural Language Processing
Надо в общем еще эксперименты делать, раз в немецком получилось, то мб и с ASR сработает.
источник

A

Anton in Natural Language Processing
Через какой скрипт?
Я пока в ноутбуке тестил. В целом на небольшом датасете немного ошибок начал исправлять, но данных мало.
источник