Size: a a a

2020 January 28

CP

Companion Philipp in pro.lua
Или есть еще какие-то варианты?
источник

S

Snusmumriken in pro.lua
Твой вариант нормален.
источник

S

Snusmumriken in pro.lua
Ну то есть другие варианты технически есть, но это извращения.
источник

S

Snusmumriken in pro.lua
Вытащить текст из пдф луями — не шибко сложная задача, я с этим справлялся года четыре назад.
источник

CP

Companion Philipp in pro.lua
Придется, видимо, руками чистить конечные ПДФки от мусора, но, наверное, это не так страшно
источник

CP

Companion Philipp in pro.lua
Snusmumriken
Вытащить текст из пдф луями — не шибко сложная задача, я с этим справлялся года четыре назад.
Да тут онлайновых сервисов дофига, они вроде нормальный плейн отдают
источник

S

Snusmumriken in pro.lua
Ой, да ну. Внутри пдф есть блоки с закодированным текстом, в каждом блоке (и в конце пдф) есть словари трансляции некоторых кодов символов в символы из словаря. Вытаскиваешь блок с текстом, gsub'аешь по содержимому словаря текущего блока и словаря в конце файла, получаешь текст. Это не точно (ибо давно было), но очень похоже. И быстрее в десять тысяч раз чем пользоваться сервисами. Хотя если на время пофигу — пофигу.
источник

CP

Companion Philipp in pro.lua
Да это понятно. Просто особо разницы нет
источник

CP

Companion Philipp in pro.lua
Что я кодом текст получу, что готовым сервисом
источник

CP

Companion Philipp in pro.lua
Суть задачи тут не в этом. Всё равно придется его редачить на уровне плейна/вырезать ненужное из ПДФки
источник

CP

Companion Philipp in pro.lua
Возможно, второе проще
источник

S

Snusmumriken in pro.lua
Ну, тут стоило сформировать нормальное тз. Просто вытащить данные из пдфа — просто. С другой стороны, вырезать ненужное из пдфки без раскодирования — может быть довольно стрёмно, ибо ты не знаешь что конкретно вырезаешь.
источник

CP

Companion Philipp in pro.lua
Ну, в общем, как к этому подойти – понял
источник

CP

Companion Philipp in pro.lua
Дальше дело техники, спасибо
источник

AZ

Aydar Zarifullin in pro.lua
Snusmumriken
Ой, да ну. Внутри пдф есть блоки с закодированным текстом, в каждом блоке (и в конце пдф) есть словари трансляции некоторых кодов символов в символы из словаря. Вытаскиваешь блок с текстом, gsub'аешь по содержимому словаря текущего блока и словаря в конце файла, получаешь текст. Это не точно (ибо давно было), но очень похоже. И быстрее в десять тысяч раз чем пользоваться сервисами. Хотя если на время пофигу — пофигу.
На тему вытаскивания текста из пдф была статья на хабре https://habr.com/ru/post/69568/
источник

S

Snusmumriken in pro.lua
Да, я её читал когда сам парсил пдфки ))
источник

S

Snusmumriken in pro.lua
А, словари трансляции нужны как раз для юникода. Если там чисто ascii — такие извращения не нужны
источник

CP

Companion Philipp in pro.lua
Хм, можно еще распарсить PDF’ку в JSON
источник

CP

Companion Philipp in pro.lua
Учитывая однородность оформления списков
источник

CP

Companion Philipp in pro.lua
И потом уже сильно упростить себе жизнь
источник