Понятно, нужна модель для поиска подходящего абзаца текста, который можно будет подставлять уже в GPT
Обычно это делается так:
1) весь текст книги разбивается на абзацы
2) каждый абзац переводится моделью А в какой-то вектор и складывается в индекс для быстрого поиска соседей
3) при поступлении вопроса, он переводится моделью Б в какой-то вектор, и для него ищутся ближайшие соседи в индексе
Потом мы текст каждого ближайшего соседа используем в качестве затравки.
Фишка тут в том, что на парах "абзац+вопрос" можно обучить модели А и Б совместно так, чтобы качество поиска было хорошее.
Если интересно, можем тут архитектуру таких моделей подробнее обсудить.