Фактология по персонажам\событиям.
Вот допустим, у меня получилось взять "очень хороший ответ" у слегка файнтюненой на тексте "Войны и мира" ruGPT-3-medium с "затравкой" (забыл как это по-научному) на вопрос-ответ.
Вопрос: Какие были руки у князя Андрея? А какие у Пьера?
Ответ: У князя Андрея были тонкие, нежные, белые руки. У Пьера были толстые, сильные, грубые руки, и он ими работал.
Хотя, известная тема, что у Андрея "маленькие белые ручки", и что-то не помню, чтобы Пьер работал.
Была надежда на бОльшей модели поучить подольше и улучшить результат, но
а) я понял, что этот результат довольно случаен, другие схожие вопросы были сильно "в молоко".
б) текста 6.5МБ и ruGPT-3 large просто "уплывает" в воспроизведение кусков текста, хотя и хорошо связанных между собой. Что может быть и неплохо, но эти куски к сожалению не особо относятся к "заданному предмету", т.е. даже продолжение "Руки у князя Андрея были " не бьётся с реальными фактами в самом тексте. Ну и сама способность "брать контекст из затравки" сильно повреждается, конечно.
Я попозже наверное смогу подробнее описать свой опыт с ruGPT-3 на эту тему.
Она, на первый взгляд, феноменально хорошо делает QA по "абзацу текста" в затравке, без дообучения. Но тут проблема, какие именно части текста ей для этого презентовать, как их находить и т.п. Там опять же есть референсы, разнесённые в тексте. Если "он сказал" попадёт в затравку, то сеть б-м справится. Если нет, то, понятно, мимо. "Образ персонажа" скорее всего вообще сильно разнесён по тексту, непонятно как его собирать, если не в граф знаний.