Телеграмм чат группы natural_language_processing страница 1269

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Natural Language Processing

2840 membersпожаловаться на группу

2021 June 18

GF

Grigory Frantsuzov in Natural Language Processing

целые коллективы работают

источник

12:21пожаловаться #1

A

Andrey in Natural Language Processing

ну да я не особо бы в этом сомневался... тут научный институт за такие деньги на три года нанять можно. или три на год

источник

12:22пожаловаться #2

AP

Alex Peresmeshnik in Natural Language Processing

pdftotext есть

источник

13:32пожаловаться #3

D

Dmitriy in Natural Language Processing

танцевать с бубнами будете очень долго

источник

13:46пожаловаться #4

D

Dmitriy in Natural Language Processing

pdf2image + teseract

источник

13:46пожаловаться #5

D

Dmitriy in Natural Language Processing

быстрее и проще

источник

13:47пожаловаться #6

М

Майя in Natural Language Processing

Спасибо!

источник

13:48пожаловаться #7

М

Майя in Natural Language Processing

Столько советов! Все пробую, спасибо больше!

источник

13:48пожаловаться #8

НГ

Николай Герасименко... in Natural Language Processing

Это в случае, если текстового слоя на пдфке нет. А если он есть, то просто качество понизится из-за перераспознавания.

источник

13:52пожаловаться #9

GF

Grigory Frantsuzov in Natural Language Processing

easyocr работает дольше но дает лучшее качество

источник

13:54пожаловаться #10

GF

Grigory Frantsuzov in Natural Language Processing

а главное привязку к положению на листе

источник

13:54пожаловаться #11

D

Dmitriy in Natural Language Processing

очень дольше ))

источник

13:54пожаловаться #12

GF

Grigory Frantsuzov in Natural Language Processing

tesseract к сожалению не дает координат текста по-моему

источник

13:55пожаловаться #13

D

Dmitriy in Natural Language Processing

тут вопрос надо ли это ТС

источник

13:56пожаловаться #14

GF

Grigory Frantsuzov in Natural Language Processing

судя по всему не надо

источник

14:06пожаловаться #15

NK

Nikolay Karelin in Natural Language Processing

Дает, формат hocr

источник

14:41пожаловаться #16

GF

Grigory Frantsuzov in Natural Language Processing

о, спасибо!

источник

14:44пожаловаться #17

NK

Nikolay Karelin in Natural Language Processing

Замечу, что есть ДВА варианта утилиты pdftotext - одна выдает только весь текст (как Save As -> Plain text в программе просмотра).
Вторая утилита с таким названием из пакета poppler поддерживает опцию —bbox, этот вариант сработает почти как прогон через OCR, но без ошибок OCR.

Но по моему опыту, TET работает лучше, хоть он и платный (есть триал, до 5 или 10 страниц доки можно попробовать качество).

источник

14:45пожаловаться #18

VM

Victor Maslov in Natural Language Processing

этот easyocr при всем кол-ве людей, которые над ним работали, и при том количестве технологий, которые в него всунуты, распознал текст хуже, чем обертка в 10 строк на мою либу, которая даже не для OCR делалась

источник

15:39пожаловаться #19

GF

Grigory Frantsuzov in Natural Language Processing

Так с огромным количеством продуктов, но это не повод ими не пользоваться к сожалению

источник

15:42пожаловаться #20