Size: a a a

Natural Language Processing

2021 June 18

GF

Grigory Frantsuzov in Natural Language Processing
целые коллективы работают
источник

A

Andrey in Natural Language Processing
ну да я не особо бы в этом сомневался... тут научный институт за такие деньги на три года нанять можно. или три на год
источник

AP

Alex Peresmeshnik in Natural Language Processing
pdftotext есть
источник

D

Dmitriy in Natural Language Processing
танцевать с бубнами будете  очень долго
источник

D

Dmitriy in Natural Language Processing
pdf2image  + teseract
источник

D

Dmitriy in Natural Language Processing
быстрее и проще
источник

М

Майя in Natural Language Processing
Спасибо!
источник

М

Майя in Natural Language Processing
Столько советов! Все пробую, спасибо больше!
источник

НГ

Николай Герасименко... in Natural Language Processing
Это в случае, если текстового слоя на пдфке нет. А если он есть, то просто качество понизится из-за перераспознавания.
источник

GF

Grigory Frantsuzov in Natural Language Processing
easyocr работает дольше но дает лучшее качество
источник

GF

Grigory Frantsuzov in Natural Language Processing
а главное привязку к положению на листе
источник

D

Dmitriy in Natural Language Processing
очень дольше ))
источник

GF

Grigory Frantsuzov in Natural Language Processing
tesseract к сожалению не дает координат текста по-моему
источник

D

Dmitriy in Natural Language Processing
тут вопрос надо ли это ТС
источник

GF

Grigory Frantsuzov in Natural Language Processing
судя по всему не надо
источник

NK

Nikolay Karelin in Natural Language Processing
Дает, формат hocr
источник

GF

Grigory Frantsuzov in Natural Language Processing
о, спасибо!
источник

NK

Nikolay Karelin in Natural Language Processing
Замечу, что есть ДВА варианта утилиты pdftotext - одна выдает только весь текст (как Save As -> Plain text в программе просмотра).
Вторая утилита с таким названием из пакета poppler поддерживает опцию —bbox, этот вариант сработает почти как прогон через OCR, но без ошибок OCR.

Но по моему опыту, TET работает лучше, хоть он и платный (есть триал, до 5 или 10 страниц доки можно попробовать качество).
источник

VM

Victor Maslov in Natural Language Processing
этот easyocr при всем кол-ве людей, которые над ним работали, и при том количестве технологий, которые в него всунуты, распознал текст хуже, чем обертка в 10 строк на мою либу, которая даже не для OCR делалась
источник

GF

Grigory Frantsuzov in Natural Language Processing
Так с огромным количеством продуктов, но это не повод ими не пользоваться к сожалению
источник