Всем привет. Только ступил на путь nlp. Есть вопросик: как найти заголовок в цифровом PDF, не используя CV и DL? Испробовал pyPDF2, PyMuPDF, pdfminer, pdfrw. Пока только получается выводить целый текст без артефактов, выделять страницы и сохранять их в новом файле.
Подскажите, в какую сторону смотреть по этому вопросу? Спасибо.
Я решал эту задачу через анализатор pullenti TitlePageAnalyzer, который по тексту титульной страницы может найти наименование, авторов организацию и пр. Например, когда на входе курсовые, диссертации, статьи, справки и т.п., то перед собственно наименованием может быть куча информации. Работает не только для pdf, так как анализирует текст.