Замечу, что есть ДВА варианта утилиты pdftotext - одна выдает только весь текст (как Save As -> Plain text в программе просмотра).
Вторая утилита с таким названием из пакета poppler поддерживает опцию —bbox, этот вариант сработает почти как прогон через OCR, но без ошибок OCR.
Но по моему опыту, TET работает лучше, хоть он и платный (есть триал, до 5 или 10 страниц доки можно попробовать качество).