Size: a a a

Natural Language Processing

2020 December 10

KS

Konstantin Smith in Natural Language Processing
Да, многоколоночный пдф вроде обрабатывает нормально
источник

KS

Konstantin Smith in Natural Language Processing
Попробуйте в online на сайте
источник

KS

Konstantin Smith in Natural Language Processing
Alexander Kukushkin
Unitext похож на Apache Tika?
Посмотрел, что-то общее есть: на входе файл, на выходе текст. Но Unitext предлагает более сложную текстовую модель, чем плоский текст. Например, мы знаем, что информация находится в таблицах - Unitext позволит её обработать.
источник

RS

Roman Samarev in Natural Language Processing
Konstantin Smith
Посмотрел, что-то общее есть: на входе файл, на выходе текст. Но Unitext предлагает более сложную текстовую модель, чем плоский текст. Например, мы знаем, что информация находится в таблицах - Unitext позволит её обработать.
Tika может выдать документ в формате html
источник

KS

Konstantin Smith in Natural Language Processing
Unitext это тоже может - функция GetHtml()
источник

KS

Konstantin Smith in Natural Language Processing
Кстати, этот генерируемый Html отображается в левом окне в online
источник

RS

Roman Samarev in Natural Language Processing
Строго говоря, Tika - это метабиблиотека над множеством парсеров бинарных документов. Например, для pdf она использует pdfbox.
источник

KS

Konstantin Smith in Natural Language Processing
В этом и отличие - Unitext содержит всё внутри себя и ни в чём стороннем не нуждается.
источник

AK

Alexander Kukushkin in Natural Language Processing
Вы самостоятельно реализовали работу с pdf, doc, docx?
источник

KS

Konstantin Smith in Natural Language Processing
Да
источник

AS

Alex Surname in Natural Language Processing
без сторонних библиотек для этих форматов?
источник

KS

Konstantin Smith in Natural Language Processing
Точнее, для pdf и docx - полностью сам, для doc нашёл какую-то старую библиотеку и сильно её перелопатил.
источник

KS

Konstantin Smith in Natural Language Processing
Alex Surname
без сторонних библиотек для этих форматов?
Совершенно верно, ничего стороннего.
источник

AS

Alex Surname in Natural Language Processing
Konstantin Smith
Точнее, для pdf и docx - полностью сам, для doc нашёл какую-то старую библиотеку и сильно её перелопатил.
на каком языке? сколько ушло времени на ПДФ?
источник

KS

Konstantin Smith in Natural Language Processing
Этот Unitext я разрабатываю давно, по мере обработки разных форматов. Для PDF до недавнего времени я использовал какую-то открытую библиотеку, но когда пошли PDF, которые не понимались ей, то пришлось всё с нуля написать самому. На PDF ушло около недели. Это самый дебильный формат, с которым я когда-либо сталкивался.
источник

AS

Alex Surname in Natural Language Processing
вы ПДФ с нуля написали за неделю?
источник

KS

Konstantin Smith in Natural Language Processing
Да
источник

AS

Alex Surname in Natural Language Processing
сильно
источник

AS

Alex Surname in Natural Language Processing
слабо верится конечно
источник

KS

Konstantin Smith in Natural Language Processing
Ну, может, чуть больше, не помню точно. Но не больше 10 дней.
источник