Телеграмм чат группы sql_ninja страница 10103

Хотя бы поиск

G

вполне вариант.

Но это самое верное решение конечно

14:34пожаловаться #2

DI

Kristina

Всем привет, ситуация такая: есть данные в бумажном формате, которые мне нужно внести в свою БД (ms sql), я их отсканировала в pdf и конвертнула в excel и сsv, изначально в бумажной версии были перепутаны данные в столбцах, то есть 2 столбца объединили в один, может кто пользовался скриптами для автоматизации процесса заполнения данными и дальнейшей сверки их с оригиналом?

Эта задача точно не в рамках БД, вам нужно использовать библиотеки от fine reader или на python OpenCV
После того как распознаете текст (будут ошибки, т.к. ни кто не гарантирует их отсутствия) уже можно говорить о сравнении текстов

14:38пожаловаться #3

T

G0dless

Но это самое верное решение конечно

ну или если есть деньги и время. и такое нужно на постоянку - писать софт, который будет распознавать и писать в БД.

14:38пожаловаться #4

G

Я бы не так сказал, если можно выделить программера, который за неделю-две решит или хоть как-то упростит работу, то это норм. Даже если одноразово.
Но эт мое имхо

14:39пожаловаться #5

T

Dmitriy Ivanov

Эта задача точно не в рамках БД, вам нужно использовать библиотеки от fine reader или на python OpenCV
После того как распознаете текст (будут ошибки, т.к. ни кто не гарантирует их отсутствия) уже можно говорить о сравнении текстов

помнится работая в КЧВ сторонняя контора писала нам софт на базе FineReader по распознаванию разных документов. но там был постоянный большой поток документов. и было оправданно заказать такое решение.

14:39пожаловаться #6

DN

мне все равно не понятно, как можно подтвердить корректность распознанного текста, кроме как сверив глазами с бумажным оригиналом/пдф

14:41пожаловаться #7

DN

ведь подтверждение - это то же самое распознавание и сравнение с предыдущим распознанным вариантом

14:42пожаловаться #8

DI

G0dless

Я бы не так сказал, если можно выделить программера, который за неделю-две решит или хоть как-то упростит работу, то это норм. Даже если одноразово.
Но эт мое имхо

откуда такие сроки? Почему неделя, а не месяц или два? Вы считает, что это простая задача?

14:42пожаловаться #9

T

мне все равно не понятно, как можно подтвердить корректность распознанного текста, кроме как сверив глазами с бумажным оригиналом/пдф

тут от алгоритма зависит. если смогли распознать данные - ок. если нет - сигнализируем, что не смогли распознать.

14:43пожаловаться #10

T

Dmitriy Ivanov

откуда такие сроки? Почему неделя, а не месяц или два? Вы считает, что это простая задача?

со сроками согласен. тут не угадаешь сколько надо.

14:43пожаловаться #11

DI

ведь подтверждение - это то же самое распознавание и сравнение с предыдущим распознанным вариантом

если есть два варианта, то можно сравнить, другой вопрос, там описано, что есть ошибки - вот это вообще не понятно как исправлять, такая задача уже для нейронных сетей.

14:44пожаловаться #12

G

мне все равно не понятно, как можно подтвердить корректность распознанного текста, кроме как сверив глазами с бумажным оригиналом/пдф

ну если в доке только текст, то не сложно. Берем данные формируем текстовый блок из слов, цифр и тп. Берем такой же из распознавания. Берем фунцию, сравнивающую 2 текста по триграммам или иной алгоритм, которая будет выдавать коэффициет похожести. Так мы получим элементы, которые сильно похожи и сильно не похожи

14:44пожаловаться #13

DN

тут от алгоритма зависит. если смогли распознать данные - ок. если нет - сигнализируем, что не смогли распознать.

так я подозреваю, что алгоритм следующий - распознали, что это число 100,28. Теперь нужно подтвердить, что именно это число было в оригинале

14:44пожаловаться #14

G

Да сроки от балды. Данных то не видим

14:44пожаловаться #15

T

так я подозреваю, что алгоритм следующий - распознали, что это число 100,28. Теперь нужно подтвердить, что именно это число было в оригинале

я хз. гадать не буду. "без ТЗ - результат ХЗ".

14:45пожаловаться #16

G

я хз. гадать не буду. "без ТЗ - результат ХЗ".

Отличная поговорка) надо взять на вооружение к начальству

14:46пожаловаться #17

DI

тут от алгоритма зависит. если смогли распознать данные - ок. если нет - сигнализируем, что не смогли распознать.

проблема гораздо шире, смогли или не смогли распознать, т.к. распознали, но с ошибками, распознали но не весь текст, распознали, но не правильно в текущем контексте и т.д.

14:46пожаловаться #18

T

Dmitriy Ivanov

проблема гораздо шире, смогли или не смогли распознать, т.к. распознали, но с ошибками, распознали но не весь текст, распознали, но не правильно в текущем контексте и т.д.

да это понятно что шире и глубже.
и такое надо детально описывать. что и в какой момент делаем.

14:46пожаловаться #19

DN

я хз. гадать не буду. "без ТЗ - результат ХЗ".

согласен)
но я понял именно так - подтвердить, что в оригинале было именно то, что мы внесли в БД (считаем, что во время распознавания ошибок не возникло)