Добрый вечер, подскажите, есть ли готовые решения для извлечения из текстов таких характеристик, как различные физические величины: размеры, сила тока, напряжение, давление, объём и т.п.?
Pullenti есть специальный анализатор именно для этой задачи
здравствуйте. подскажите, сталкивались ли вы с решением проблемы анализа связности текста? я имею в виду отсеивание явной бессмыслицы. может быть есть какие-то простые решения для этого?
здравствуйте. подскажите, сталкивались ли вы с решением проблемы анализа связности текста? я имею в виду отсеивание явной бессмыслицы. может быть есть какие-то простые решения для этого?
статистику распределения символов или N-грамм считать
Только слова существенно более вариативны, чем N-граммы, имхо даже после диких стеммеров сможет отлавливать только достаточно длинные тексты с бессмыслицей
в режиме поиска быстрых универсальных решений - можно прогнать через лемматизатор и определение частей речи. Потом сравнить распределение частей речи с эталонным распределением, для поиска аномалий.
в режиме поиска быстрых универсальных решений - можно прогнать через лемматизатор и определение частей речи. Потом сравнить распределение частей речи с эталонным распределением, для поиска аномалий.