Всем привет, на новом сайте
pullenti.ru выложена новая библиотека SDK Unitext для выделения текстов из файлов разных форматов (pdf, doc, docx, odt, html и др.). Выделяется не только плоский текст, но и структурирующие его такие элементы как таблицы, списки, сноски, примечания, а также извлекаются картинки. Такое универсальное представление названо Unitext. SDK самодостаточно и не требует внешних библиотек или предустановленного ПО. Функционирует на любых платформах, где поддержаны языки C#, Java, Python или Javascript. Библиотека лингвистического анализа осталась и теперь называется Pullenti Lingvo.