А если эти токены, условно, набор английских букв?
Кейс такой: есть русский текст, в котором встречаются смайлы в виде набора английских букв (не всегда есть семантика). Адекватными ли получатся такие эмбединги для всего предложения / слова?
это завиит от того, на каком корпусе обучался конкретый берт с конкретным токенизатором. Как понять, что токенизатор не пилит тови специфические "смйлы" и проч? Возьми этот самый токенизатор и натрави на строку с этими смайлами. Если ":D" не приваратилось в ":#D" или ": D", токенизатор в курсе про такую единицу как ":D", а если не в курсе, то файнтьюнинг на твоём корпусе с кучей таких смайлов тебе тоже даст результат.