Size: a a a

2021 January 14

S

SoHard 🎄 in Scrapy
Andrii
Уххх жесть :)
самое интересное, что если редактировать запрос и запросить список не из 10 а из 1000 страниц, по времени разница не особо заметна
источник

i

i in Scrapy
1. если можешь лучше получи данные не через пдф
2. если это текстовый пдф то все-равно лучше пункт 1. но либы в принципе тоже есть. но работа с пдф это всегда боль.
3. если не можешь - куча враппингов для  ocr-либ под питон  тебе в помощь
источник

AR

Andrey Rahmatullin in Scrapy
мы тессеракт юзаем, вроде успешно
источник

i

i in Scrapy
CTRLCTRLV
Привет. Просветите новичка насчет что лучше в парсинге java или python?
подытоживая, в принципе, и то и то справится одинаково, просто в джаве кода тебе придется написать в 2-3 раза больше. А скорость будет одинаковая скорее всего, особенно в случае ocr над pdf, т.к. да, подключаются либы вида tesseract/opencv/abbyy.
источник

i

i in Scrapy
и еще я заметил, что странным образом либы эти под питоном проще обычно подключить, особенно какие-нибудь еще для нейронок в том числе или жестко юзающие GPU
источник

i

i in Scrapy
правда, это не мое личное наблюдение, это я на хабре плачь Ярославны читал про какие-то медицинские исследования с нейронками. И не совсем уверено что это так и есть.
источник

C

CTRLCTRLV in Scrapy
abbyy как подключить к пайтону?
источник

i

i in Scrapy
ну чувак, введи уже в гугль чонить типа abby ocr api python
источник

C

CTRLCTRLV in Scrapy
i
ну чувак, введи уже в гугль чонить типа abby ocr api python
да подумал может все проще, чем просить доступа на сайте разраба
источник

S

SoHard 🎄 in Scrapy
CTRLCTRLV
да подумал может все проще, чем просить доступа на сайте разраба
куда проще?
источник

S

SoHard 🎄 in Scrapy
источник

C

CTRLCTRLV in Scrapy
SoHard 🎄
куда проще?
обычно abbyy все платно
источник

S

SoHard 🎄 in Scrapy
CTRLCTRLV
обычно abbyy все платно
конечно
источник

S

SoHard 🎄 in Scrapy
ты же их облако использовать будешь
источник

i

i in Scrapy
ну abbyy это платная контора, они хотят за это денежку, все-равно надо будет как-то да проходить аутентификацию в с их апи. если тебе надо бесплатно то есть тессеракт)
источник

МС

Михаил Синегубов... in Scrapy
tesseract же бесплатный...
источник

МС

Михаил Синегубов... in Scrapy
аббю для примера, просто, назвали
источник

C

CTRLCTRLV in Scrapy
с таким тессеракт справится?
источник

МС

Михаил Синегубов... in Scrapy
CTRLCTRLV
с таким тессеракт справится?
встречный вопрос, а abby справится?
источник

C

CTRLCTRLV in Scrapy
десктоп abbyy по крайней мере справляется
источник