То есть, нужно дообучить модель или токенизатор? И как вообще это можно сделать? Понимаю, что Берта можно зафайнтюнить для, например, классификации. Но если мне нужен от него только эмбеддер, то как тогда поступить?
Берёшь реализацию берта мультилингвального из официальной репы или какого-нибудь ruBert диппавлов. Читаешь внимательно инструкцию, как обучить language model на своём корпусе в их документации. Я не тюнил language model. Может быть, тут кто-то подскажет, насколько имеет смысл тюнить... Но если честно, оно тебе точно нужно? Ты уже понял, что готовые берты с их токенизаторами не знают про твои смайлы?