как один из вариантов, да. Но архаизм - это лишь один из десятков разных вариантов, который может встретиться в одном тексте. И tf-idf в таком случае никакой пользы не даст т.к. даже если обучить на 4+ н-грамм, то это лишь может показать вероятность, что в тексте допущена ошибка.
Саму ошибку можно вытащить по значению idf, но если в тексте будут более часто встречаемые н-граммы с превышающим весом, то ряд ошибок такая модель пропустит.
Нужно начинать со словаря, который составил кто-то ещё для возможно других целей, исходя из словаря находить тексты, в которых будут эти термины использоваться, и на них обучать трансформер. Если будешь искать 4-н граммы, то получишь очень разряженную таблицу.