Size: a a a

Natural Language Processing

2020 December 10

AS

Alex Surname in Natural Language Processing
а язык какой?
источник

KS

Konstantin Smith in Natural Language Processing
C#. Когда прижмёт, приходится напрягаться...
источник

AS

Alex Surname in Natural Language Processing
вы тестировали ее на множестве документов?
источник

AS

Alex Surname in Natural Language Processing
у меня есть репо с кучей пдф
источник

AS

Alex Surname in Natural Language Processing
сможете прогнать?
источник

KS

Konstantin Smith in Natural Language Processing
У меня есть парочка PDF, которые пока не обрабатываются (в планах разобраться). Но большинство вроде нормально. Вы и сами сможете прогнать, если нужно - SDK есть.
источник

AS

Alex Surname in Natural Language Processing
а ну если еще разбираться нужно, то может
источник

MK

Max Kuznetsov in Natural Language Processing
Konstantin Smith
Всем привет, на новом сайте pullenti.ru выложена новая библиотека SDK Unitext для выделения текстов из файлов разных форматов (pdf, doc, docx, odt, html и др.). Выделяется не только плоский текст, но и структурирующие его такие элементы как таблицы, списки, сноски, примечания, а также извлекаются картинки. Такое универсальное представление названо Unitext. SDK самодостаточно и не требует внешних библиотек или предустановленного ПО. Функционирует на любых платформах, где поддержаны языки C#, Java, Python или Javascript. Библиотека лингвистического анализа осталась и теперь называется Pullenti Lingvo.
Еще есть wordml (Word 2003), который некоторые крупные компании используют в качестве внутреннего формата в своих продуктах.
источник

KS

Konstantin Smith in Natural Language Processing
Вроде поддержан, это когда всё в чистом одном XML без сжатия. Но не уверен - попробуйте загрузить на сайте.
источник

KS

Konstantin Smith in Natural Language Processing
Кстати, мне даже попадались Word 6 (это ещё до doc 2003) - они тоже обрабатываются.
источник

MK

Max Kuznetsov in Natural Language Processing
Konstantin Smith
Вроде поддержан, это когда всё в чистом одном XML без сжатия. Но не уверен - попробуйте загрузить на сайте.
А питоновский код - это результат трансляции с C#?
источник

KS

Konstantin Smith in Natural Language Processing
Да, как и Java и Javascript
источник

RS

Roman Samarev in Natural Language Processing
Konstantin Smith
C#. Когда прижмёт, приходится напрягаться...
А Java-код рабочий? Там файлы c UTF-8 BOM. На них компилятор валится.
UnitextJava/src/main/java/demo/properties/Resources.java:1: error: illegal character: '\ufeff'
источник

KS

Konstantin Smith in Natural Language Processing
Ой, java не поддерживает BOM? Могу отключить.
источник

MK

Max Kuznetsov in Natural Language Processing
Konstantin Smith
Да, как и Java и Javascript
Круто. Не устаю удивляться вашим талантам 👍 помню 5  лет назад в К+ смотрели вашу утилиту по созданию редакций документов, тоже был под впечатлением.
источник

RS

Roman Samarev in Natural Language Processing
Konstantin Smith
Ой, java не поддерживает BOM? Могу отключить.
Видимо, нет. Если надо, могу для проверки сборки дать gradle-файл. Архив никаких файлов-проекта не содержит
источник

KS

Konstantin Smith in Natural Language Processing
Roman Samarev
Видимо, нет. Если надо, могу для проверки сборки дать gradle-файл. Архив никаких файлов-проекта не содержит
Сейчас сделаю версию без BOM.
источник

KS

Konstantin Smith in Natural Language Processing
Max Kuznetsov
Круто. Не устаю удивляться вашим талантам 👍 помню 5  лет назад в К+ смотрели вашу утилиту по созданию редакций документов, тоже был под впечатлением.
Спасибо, обработка разных НПА - это у меня основная сфера приложения анализа текстов.
источник

MK

Max Kuznetsov in Natural Language Processing
Konstantin Smith
Спасибо, обработка разных НПА - это у меня основная сфера приложения анализа текстов.
У меня по большей степени тоже.
источник

KS

Konstantin Smith in Natural Language Processing
Roman Samarev
Видимо, нет. Если надо, могу для проверки сборки дать gradle-файл. Архив никаких файлов-проекта не содержит
Для Java-кода убрал BOM-ы.
источник