Нет, надо в качестве x подавать строку, пропущенную через токенизатор, а в качестве y - массив ноликов для тех токенов, которые не соответствуют искомой сущности, и единичек - там, где она есть.
Спасибо! Да, токенизированную строку имел ввиду, конечно. Есть опыт работы c bag words и вот думаю, как не изучая ничего нового решить задачу по быстрому. Приведенными вами ссылки изучаю, но если идти по верхам, то алгоритм примерно такой:
1. Беру много мед статей
2. Парсим базу препаратов
3. Статьи чищу, нормализую, токенизирую
4. Делю данные на x (ориг данные) и y (с 1 для искомых слов, а остальное 0)
5. Беру преобученную BERT трансофрмер
6. Доучиваю на своих данных
Верно? Получается, задача классификации и f1 мера в качестве целевой метрики?