можно попробовать bert2bert в Huggingface, если нет предобученных моделей для русского
Большое спасибо!
Ключевые слова относятся к одной тематике и точно должны повторяться. Как часто повторяются и сколько всего уникальных слов имеется - мне пока не известно, так как датасет в стадии разметки. Надежду вселяет то, что это все же задача extractive summary - быть может, она менее требовательна к объему выборки. Думаю взять bert2bert и натравить ее в начале на датасет с русскими новостями, а уже с полученными весами приступить непосредственно к задаче. Конечно, тут будет разная длина и кодируемой, и декодируемой части, но мне кажется, это лучше, чем "холодный" старт с мультиязычной моделью