Можно взять все слова из текста, посчитать для них эмбеддинги тем же USE и эмбеддинг для текста, взять 20 наиболее близких к тексту, сделать рандомные сочетания слов: униграммы-биграмы-триграммы, загнать в T5 - он соберет из них согласованные фразы. Для полученных фраз посчитать перплексию, выбрать самые вероятные, для них опять посчитать эмбеддинги и сравнить по близости с исходным текстом. У меня получалось вполне ок)