Здравствуйте, а кто делал подсветку слов в тексте, например у меня есть 10 слов мне нужно найти в тексте их и вставить теги. Регулярки на большом количестве слов очень медленнее. Перед началом извлекаю из слова стем, чтобы найти все словоформы. Например, использовал ahocorasick, но он ищет границы стема, а мне нужно границы слова. Может кто сталкивался с подобной задачей?
В Pullenti на пустом процессоре (без анализаторов) запускаем текст, получаем на выходе последовательность токенов (слов), в которых сделана (1) нормализация, то есть(можно проверить на одно или множество искомых слов и (2) у каждого токена есть BeginChar\EndChar - позиции в исходном тексте. Это решает задачу.