Всем привет! Продолжая тему эмбеддингов:
1) как можно использовать sentence-level эмбеддинги для вложения текстов, которые чуть длиннее, чем 2-3 предложения? Пока в голову пришло только разбивать на предложения и усреднять эмбеддинги предложений - а есть ли какие-то более продвинутые хаки?
2) Если дообучать BERT на своих данных, то достаточно ли для получения хороших вложений будет использовать только Masked Language Modelling, или можно прикрутить еще какой-то лосс? Допустим, все данные моноязычные и без меток. Если покидаете ссылок на архив, буду оч благодарен :)