Size: a a a

Natural Language Processing

2020 December 22

AS

Alex Surname in Natural Language Processing
вот нашел 14.3.3Document Information Dictionary
источник

AS

Alex Surname in Natural Language Processing
но это опциональное поле
источник

AS

Alex Surname in Natural Language Processing
можно вычленить весь текст из пдф и пытаться определить заголовек не методами ПДФ
источник

AS

Alex Surname in Natural Language Processing
типа жирный шрифт вверху и тд
источник

TN

Taras Novokhatsko in Natural Language Processing
Да, да, наверное. Вот и надо, не используя CV и DL.
источник

NK

Nikolay Karelin in Natural Language Processing
Taras Novokhatsko
А он есть и задача такая поставлена. Не ясен твой ответ...
Дело в том, что чисто по смыслу PDF - это "цифровая распечатка", по умолчанию там есть только информация о положении и шрифте отдельных глифов на странице. Встречаются экстремальные случаи, когда директивы по расстановке глифов на странице будут указаны совершенно произвольном порядке.
источник

NK

Nikolay Karelin in Natural Language Processing
Есть вариация PDF - tagged PDF, где поддерживаются теги типа как в HTML, но он довольно редко используется.
источник

NK

Nikolay Karelin in Natural Language Processing
Что можно сделать, это (с помощью например PDFminer) найти текст с максимальным размером шрифта. Качество будет зависеть от ваших документов.
источник

T

Timur in Natural Language Processing
Поддерживаю идею с pdfminer
Ещё можно на расположение смотреть -- если, например, текст сверху по центру, то скорее всего это заголовок документа
источник

T

Timur in Natural Language Processing
Зависит от того, что это за документы
источник

AS

Alex Surname in Natural Language Processing
шрифт + по горизонтали нет другого текста
источник

TN

Taras Novokhatsko in Natural Language Processing
Всем спасибо. Испробую
источник

TN

Taras Novokhatsko in Natural Language Processing
Nikolay Karelin
Дело в том, что чисто по смыслу PDF - это "цифровая распечатка", по умолчанию там есть только информация о положении и шрифте отдельных глифов на странице. Встречаются экстремальные случаи, когда директивы по расстановке глифов на странице будут указаны совершенно произвольном порядке.
А если PDF в форме как картинка сохранен и текста, в принципе, нет.
источник

TN

Taras Novokhatsko in Natural Language Processing
Но мне это пока не надо:)
источник

T

Timur in Natural Language Processing
тогда вытаскивать text через OCR и для определения "тайтл\не тайтл" использовать эвристики
источник

TN

Taras Novokhatsko in Natural Language Processing
Ребята, всем thanks a lot.:)
источник

TN

Taras Novokhatsko in Natural Language Processing
Еше я встретил вот это. Но тут сложновато для начала:(
источник

TN

Taras Novokhatsko in Natural Language Processing
источник

NK

Nikolay Karelin in Natural Language Processing
Taras Novokhatsko
Еше я встретил вот это. Но тут сложновато для начала:(
Там же даже рабочий пример есть! И аффтару написать можно... По мне, так наливай да пей.
источник
2020 December 23

ЖR

Женя RocketData in Natural Language Processing
Всем привет, ребят кто-то сможет платно проконсультировать по nlp?
Меня интересует тегирование и выделение фраз из текста, анализ тональности, а также генерация текста.
Интересует человек с практическим опытом анализа текста.
24-ого декабря с 12 до 16, можем рассмотреть и другие дни. По длительности до часа.
Оплата 30$ на карту.

Если кому-то интересно напишите мне в ЛС.
источник