Kristina
Всем привет, ситуация такая: есть данные в бумажном формате, которые мне нужно внести в свою БД (ms sql), я их отсканировала в pdf и конвертнула в excel и сsv, изначально в бумажной версии были перепутаны данные в столбцах, то есть 2 столбца объединили в один, может кто пользовался скриптами для автоматизации процесса заполнения данными и дальнейшей сверки их с оригиналом?
Именно такой задачи не стояло. Но как-то пробовал сравнивать тексты и выводить коэффициент похожести. Использовал для поиска дубликатов и похожих данных. В вашем случае, я так понимаю нужно 1. Найти 2. Исправить ошибки в БД. я бы начал с какого-то качественного парсера, дающего максимально точный эффект от распознавания. Пусть там будет меньше, данных, но точных. Потом сравнил бы то что распознал и в бд. По этому срезу (делая ставку на ошибки распознавания и ошибку алгоритма) можно найти некое количество достоверно ошибочных данных (коэфф похожести сильно ниже порога). Исправление вижу только каким-то софтом в [полу]автоматическом режиме.
На эксперта не претендую))