Переориентация на более маленький корпус происходит автоматически при дообучении на этом корпусе - в этом же и есть смысл дообучения. Тут важно скорее наоборот, не переобучиться под собственный корпус, чтобы большая модель продолжала нормально работать на диалогах, которых в этом маленьком корпусе нет. Отрегулировать степень переобучения проще всего, проверяя, как работает модель раз в K эпох обучения (просто разговаривая с ней).
В
этом блокноте есть минималистичный пример дообучения
маленькой русской болталки, основанной на T5, на выгрузке
чата разработчиков Яндекс.Алисы.
Можно этот код взять за основу, но подставить вместо маленькой болталки
модели GPT от Сбера, у которых фантазии побольше.