Когда речь заходит о деталях, тот не видя предмета обсуждения, вряд ли можно помочь советом, особенно когда надо идти достаточно "широким фронтом" используя несколько подходов, чтобы выбрать тот который работает, а если работают все, то самый эффективный.
А если в документах все стандартно и четко структурировано, то у вас могут и регулярки справится с задачей разбиения текста документа на соответствующие категории, все зависит от того, насколько корректно вы справитесь с извлечением текста из PDF.
Потом в следующий раз, выяснится еще какая-нить особенность в документах PDF присутствует и так далее...