Size: a a a

2020 April 17

G

G0dless in sql_ninja
Хотя бы поиск
источник

G

G0dless in sql_ninja
Timus
вполне вариант.
Но это самое верное решение конечно
источник

DI

Dmitriy Ivanov in sql_ninja
Kristina
Всем привет, ситуация такая: есть данные в бумажном формате, которые мне нужно внести в свою БД (ms sql), я их отсканировала в pdf и конвертнула в excel и сsv, изначально в бумажной версии были перепутаны данные в столбцах, то есть 2 столбца объединили в один, может кто пользовался скриптами для автоматизации процесса заполнения данными и дальнейшей сверки их с оригиналом?
Эта задача точно не в рамках БД, вам нужно использовать библиотеки от fine reader или на python OpenCV
После того как распознаете текст (будут ошибки, т.к. ни кто не гарантирует их отсутствия) уже можно говорить о сравнении текстов
источник

T

Timus in sql_ninja
G0dless
Но это самое верное решение конечно
ну или если есть деньги и время. и такое нужно на постоянку - писать софт, который будет распознавать и писать в БД.
источник

G

G0dless in sql_ninja
Я бы не так сказал, если можно выделить программера, который за неделю-две решит или хоть как-то упростит работу, то это норм. Даже если одноразово.
Но эт мое имхо
источник

T

Timus in sql_ninja
Dmitriy Ivanov
Эта задача точно не в рамках БД, вам нужно использовать библиотеки от fine reader или на python OpenCV
После того как распознаете текст (будут ошибки, т.к. ни кто не гарантирует их отсутствия) уже можно говорить о сравнении текстов
помнится работая в КЧВ сторонняя контора писала нам софт на базе FineReader по распознаванию разных документов. но там был постоянный большой поток документов. и было оправданно заказать такое решение.
источник

DN

Denis Novickiy in sql_ninja
мне все равно не понятно, как можно подтвердить корректность распознанного текста, кроме как сверив глазами с бумажным оригиналом/пдф
источник

DN

Denis Novickiy in sql_ninja
ведь подтверждение - это то же самое распознавание и сравнение с предыдущим распознанным вариантом
источник

DI

Dmitriy Ivanov in sql_ninja
G0dless
Я бы не так сказал, если можно выделить программера, который за неделю-две решит или хоть как-то упростит работу, то это норм. Даже если одноразово.
Но эт мое имхо
откуда такие сроки? Почему неделя, а не месяц или два? Вы считает, что это простая задача?
источник

T

Timus in sql_ninja
Denis Novickiy
мне все равно не понятно, как можно подтвердить корректность распознанного текста, кроме как сверив глазами с бумажным оригиналом/пдф
тут от алгоритма зависит. если смогли распознать данные - ок. если нет - сигнализируем, что не смогли распознать.
источник

T

Timus in sql_ninja
Dmitriy Ivanov
откуда такие сроки? Почему неделя, а не месяц или два? Вы считает, что это простая задача?
со сроками согласен. тут не угадаешь сколько надо.
источник

DI

Dmitriy Ivanov in sql_ninja
Denis Novickiy
ведь подтверждение - это то же самое распознавание и сравнение с предыдущим распознанным вариантом
если есть два варианта, то можно сравнить, другой вопрос, там описано, что есть ошибки - вот это вообще не понятно как исправлять, такая задача уже для нейронных сетей.
источник

G

G0dless in sql_ninja
Denis Novickiy
мне все равно не понятно, как можно подтвердить корректность распознанного текста, кроме как сверив глазами с бумажным оригиналом/пдф
ну если в доке только текст, то не сложно. Берем данные формируем текстовый блок из слов, цифр и тп. Берем такой же из распознавания. Берем фунцию, сравнивающую 2 текста по триграммам или иной алгоритм, которая будет выдавать коэффициет похожести. Так мы получим элементы, которые сильно похожи и сильно не похожи
источник

DN

Denis Novickiy in sql_ninja
Timus
тут от алгоритма зависит. если смогли распознать данные - ок. если нет - сигнализируем, что не смогли распознать.
так я подозреваю, что алгоритм следующий - распознали, что это число 100,28. Теперь нужно подтвердить, что именно это число было в оригинале
источник

G

G0dless in sql_ninja
Да сроки от балды. Данных то не видим
источник

T

Timus in sql_ninja
Denis Novickiy
так я подозреваю, что алгоритм следующий - распознали, что это число 100,28. Теперь нужно подтвердить, что именно это число было в оригинале
я хз. гадать не буду. "без ТЗ - результат ХЗ".
источник

G

G0dless in sql_ninja
Timus
я хз. гадать не буду. "без ТЗ - результат ХЗ".
Отличная поговорка) надо взять на вооружение к начальству
источник

DI

Dmitriy Ivanov in sql_ninja
Timus
тут от алгоритма зависит. если смогли распознать данные - ок. если нет - сигнализируем, что не смогли распознать.
проблема гораздо шире, смогли или не смогли распознать, т.к. распознали, но с ошибками, распознали но не весь текст, распознали, но не правильно в текущем контексте и т.д.
источник

T

Timus in sql_ninja
Dmitriy Ivanov
проблема гораздо шире, смогли или не смогли распознать, т.к. распознали, но с ошибками, распознали но не весь текст, распознали, но не правильно в текущем контексте и т.д.
да это понятно что шире и глубже.
и такое надо детально описывать. что и в какой момент делаем.
источник

DN

Denis Novickiy in sql_ninja
Timus
я хз. гадать не буду. "без ТЗ - результат ХЗ".
согласен)
но я понял именно так - подтвердить, что в оригинале было именно то, что мы внесли в БД (считаем, что во время распознавания ошибок не возникло)
источник