Привет. Задавал уже тут вопрос ранее. Решаем задачу NER. Ищем город в тексте "Нижний, мать его, Новгород".
Как эти 2 токена собрать в 1? Я решил на алгоритме max flow min cost. Так как это отлично вписывается в мои технологии (Semantic web, KG и прочее), и в моем случае это поиск по словарю.
Может как-то нейронки обучают работать с такими "разорванными" тегами? Сомневаюсь что датасеты есть для такой задачи.