Size: a a a

2021 April 22

DF

Denis F in Modern::Perl
А чем сейчас модно pdf парсить? Есть пдф с текстом внутри - надо из него выдрать этот текст
источник

R

Roman in Modern::Perl
PDF — это не текстовый документ, а замороженное состояние печати, позиционированные фрагменты рендеринга. Текст может быть как страницей, так и абзацами или отдельными строчками, а может быть представлен графикой. Т.ч. универсального способа нет.
источник

SZ

Sergey Zhmylove in Modern::Perl
Есть -- ocr
источник

R

Roman in Modern::Perl
Отрендерить окончательно и распознать?
источник

DF

Denis F in Modern::Perl
Ну если скопировать в документ, то копируется как текст.
источник

R

Roman in Modern::Perl
В любом случае потребуется знать позиции распознаваемого текста, иначе это будет поток мусора.
источник

DF

Denis F in Modern::Perl
Хотелось бы как-то менее брутально :)
источник

DF

Denis F in Modern::Perl
А чего у нас из OCR под линуксом работает?
источник

R

Roman in Modern::Perl
Далеко не всегда. Очень зависит от структуры документа при печати.
источник

SZ

Sergey Zhmylove in Modern::Perl
источник

SZ

Sergey Zhmylove in Modern::Perl
Попробуй, расскажешь как оно :)
источник

DF

Denis F in Modern::Perl
Вечером попробую :)
источник

SZ

Sergey Zhmylove in Modern::Perl
Из окр можешь попробовать https://metacpan.org/pod/PDF::OCR2

В любом случае, расскажи плиз о результатах -- интересно на будущее
источник

DF

Denis F in Modern::Perl
о, оно там тессеракт юзает в недрах. Раньше не очень с русским работал. Посмотрим чего изменилось за эти годы :)
источник

DF

Denis F in Modern::Perl
Фига, оно на нейронки перешло чтоли? В целом логично, можно теперь тренировать распознавать всякую особо хтоничную срань :)
источник

VV

Vladimir Varlamov in Modern::Perl
Если там реально текст, то для начала попробовать poppler. Ну или им же получить картинки и ocr
источник

VV

Vladimir Varlamov in Modern::Perl
источник

VG

Vadim Goncharov in Modern::Perl
есть tesseract, иногда и gocr сносно работает
источник

AP

Anton Petrusevich in Modern::Perl
> Представим код, который пытается отдать управление с помощью слов await/yield в многопоточном коде.

про твой случай с йелдами двух потоков из двух потоков. 100% загрузка цпу безусловно, это вообще классический случай неправильного понимания шедулера. правильно было бы сказать шедулеру "я посплю немного", если уж ты так хочешь отдать управление, или отдать управление ивент-лупу, если ты хочешь подождать и/о, таймера или другого сигнала.

но если уж ты хотел сказать, что никакая стейт-машина не может просто взять и заснуть, то я уже приводил контр-аргумент, что процессор и есть стейт-машина.

в былые времена у процессоров была инструкция "хальт!", но сейчас количество возможный п-стейтов больше одного. как бы то ни было, это как раз способ остановиться и подождать внешнего прерывания, именно так шедулер может не кушать 100% цпу, когда две его единственные таски решили обе одновременно поспать без ивентлупа
источник

AP

Anton Petrusevich in Modern::Perl
межпоточное или межпроцессное — что дороже? если нужно распараллеливание по ядрам его таки надо ж как-то делать. да, бывают "угловые" случаи, когда асинк на одном ядре выгоднее, чем несколько ядер, это Монс демонстрировал в соревновании на хайлоаде. асинк не сложен, пока ты не упираешься в модули, которые в асинк "не очень", типа дб
источник