Продолжаю вопросы по "сунул BERT как модель SpaCy". С BERT ом познакомился буквально вчера, потому пару тупых вопросов:
1) можно ли называть эмбедингами 768 мерные вектора используемые BERTbase (
xx_paraphrase_xlm_r_multilingual_v1
) ?
2) есть ли смысл строить на такой модели классификацию на основе similarity входящей фразы с контрольными "ключевыми фразами"
3) если 2 пункт - глупое решение, то необходимо предобученный BERT дообучить под свои задачи с помощью API SpaCy (
https://spacy.io/api/data-formats#training) или же
вообще отказаться от использования SpaCy если учесть что лексические свойства объектов SpaCy использоваться не будут?
PS - задача классифицировать краткие фразы (3-4 токена)