в смысле все подряд
а как же внимание, интересы
Ну вот, а внутри интереса -- "всё подряд", вы же не разделяете статьи по уровню, чтобы читать сначала более простые. Да на них и уровни нигде не написаны... И многие статьи примерно одного уровня...
Просто сеть дорого (и долго) обучать последовательно, batch size для текста кажется порядка миллиона. Если бы вы читали сразу миллион кусков статей, пусть даже по какой-то теме -- вас бы в дурку упекли, это да.
Ну а темы -- отдельный вопрос. Обучают на всём, потому что качество на отдельной теме обычно от этого не падает, и получают более полезную универсальную многофункциональную сеть. С GPT отдельный вопрос, конечно, там тему не так легко настроить при генерации. Но эта проблема тоже решаемая.