Мне кажется, эта задача похожа на задачу восстановления пунктуации.
Если я правильно понял, новый текст - это старый текст, где к каким-то символам применили операцию замены на более правильный символ. И количество этих замен довольно ограниченное.
Кажется, для такой задачи может подойти BERT-подобная модель for token classification, типа
LaserTagger. Только, наверное, размеры токенов должны быть поменьше, чем обычно в BERT'е - так, чтобы на каждый токен приходилось не больше одной замены.
Обучал бы я её так:
1) Предобучаем обычный небольшой BERT (или RoBERTA) с маленьким словарём на задачу MLM на всех доступных текстах - и в старой орфографии, и в новой.
2) Файн-тюним эту же модель на параллельном корпусе, где на вход подаётся текст в старой орфографии, а на выходе нужно предсказать, к каким символам применить какие замены.
Построить такой параллельный корпус можно, взяв кучу текстов в новой орфографии, и какими-нибудь правилами "попортив" их, выкинув какие-то тоны. Ну или честно собрать его, если есть такая возможность.
Кажется, такая модель будет сильно более робастной, чем seq2seq, который иногда забывает часть исходного текста или, наоборот, начинает фантазировать.