Нормальные новости имеют структуру "перевернутой пирамиды", все самое важное в lead. Для "просто" аннотации хватит 512 токенов. Сложнее для аннотации по запросу.
То есть взять первые 512 токенов и прогнать через BERT?
В целом, академическая проблема аннотирования в том, что адекватное тестирование очень сложное и дорогое. Критерии у пользователей слабые. То есть лепи самое простое и 80% пользователей будет довольно. Особенно для новостей.