Спасибо! Да, токенизированную строку имел ввиду, конечно. Есть опыт работы c bag words и вот думаю, как не изучая ничего нового решить задачу по быстрому. Приведенными вами ссылки изучаю, но если идти по верхам, то алгоритм примерно такой:
1. Беру много мед статей
2. Парсим базу препаратов
3. Статьи чищу, нормализую, токенизирую
4. Делю данные на x (ориг данные) и y (с 1 для искомых слов, а остальное 0)
5. Беру преобученную BERT трансофрмер
6. Доучиваю на своих данных
Верно? Получается, задача классификации и f1 мера в качестве целевой метрики?
F1 не всегда уместная метрика, т.к. в зависимости от бизнес-задачи полнота может быть важнее точности либо наоборот.
Я бы зафиксировал приемлемый для прикладной задачи уровень точности, и пытался бы для этого уровня максимизировать полноту. Или наоборот.