Добрый вечер! В spacy или других популярных библиотеках есть быстрый способ сделать предобработку - map [«] -> ["] символов? Или вы делаете в цикле через словарь?
Ну сделай re.sub перед преобразованием в Doc(). Или можно потом заменить токены в Doc. Зависит от задачи. Но проще всего обычно рандомизированно заменять в тренировочных данных при обучении, тогда сеть усвоит сразу оба частотных распределения, и это будет работать даже в случае если у " есть несколько разных смысловых значений.