Телеграмм чат группы sql_ninja страница 10102

Всем привет, ситуация такая: есть данные в бумажном формате, которые мне нужно внести в свою БД (ms sql), я их отсканировала в pdf и конвертнула в excel и сsv, изначально в бумажной версии были перепутаны данные в столбцах, то есть 2 столбца объединили в один, может кто пользовался скриптами для автоматизации процесса заполнения данными и дальнейшей сверки их с оригиналом?

источник

13:50пожаловаться #9

DN

Denis Novickiy in sql_ninja

Автоматически сравнить данные в БД и бумажном варианте?😱

источник

13:54пожаловаться #10

K

Kristina in sql_ninja

Denis Novickiy

Автоматически сравнить данные в БД и бумажном варианте?😱

нет) с pdf 🧐

источник

13:58пожаловаться #11

N

Nik in sql_ninja

И много данных?

источник

14:01пожаловаться #12

K

Kristina in sql_ninja

Nik

И много данных?

много

источник

14:01пожаловаться #13

N

Nik in sql_ninja

Посадите много человек за сверку данных - один фиг всё скучают на самоизоляции

источник

14:03пожаловаться #14

K

Kristina in sql_ninja

😄

источник

14:04пожаловаться #15

N

Nik in sql_ninja

Ну, автоматическое сравнение с оригиналом путём распознавания изображения - это не самый точный метод.

источник

14:06пожаловаться #16

G

G0dless in sql_ninja

Kristina

Всем привет, ситуация такая: есть данные в бумажном формате, которые мне нужно внести в свою БД (ms sql), я их отсканировала в pdf и конвертнула в excel и сsv, изначально в бумажной версии были перепутаны данные в столбцах, то есть 2 столбца объединили в один, может кто пользовался скриптами для автоматизации процесса заполнения данными и дальнейшей сверки их с оригиналом?

Именно такой задачи не стояло. Но как-то пробовал сравнивать тексты и выводить коэффициент похожести. Использовал для поиска дубликатов и похожих данных. В вашем случае, я так понимаю нужно 1. Найти 2. Исправить ошибки в БД. я бы начал с какого-то качественного парсера, дающего максимально точный эффект от распознавания. Пусть там будет меньше, данных, но точных. Потом сравнил бы то что распознал и в бд. По этому срезу (делая ставку на ошибки распознавания и ошибку алгоритма) можно найти некое количество достоверно ошибочных данных (коэфф похожести сильно ниже порога). Исправление вижу только каким-то софтом в [полу]автоматическом режиме.
На эксперта не претендую))

источник

14:26пожаловаться #17

T

Timus in sql_ninja

Kristina

Всем привет, ситуация такая: есть данные в бумажном формате, которые мне нужно внести в свою БД (ms sql), я их отсканировала в pdf и конвертнула в excel и сsv, изначально в бумажной версии были перепутаны данные в столбцах, то есть 2 столбца объединили в один, может кто пользовался скриптами для автоматизации процесса заполнения данными и дальнейшей сверки их с оригиналом?

имхо, только руками сверять.

источник

14:31пожаловаться #18

T

Timus in sql_ninja

Nik

Посадите много человек за сверку данных - один фиг всё скучают на самоизоляции

вполне вариант.

источник

14:32пожаловаться #19

G

G0dless in sql_ninja

Просто хорошими алгоритмами можно хоть чуть чуть ручную работу уменьшить

источник

14:33пожаловаться #20