Телеграмм чат группы natural_language

Здравствуйте!
Возможно вопрос немного не по адресу, но все же спрошу

Можете ли пожалуйста, порекомендовать какую-нибудь альтернативу для извлечения текста из изображений, которая работает лучше tesseract (также бесплатную)?

источник

18:39пожаловаться #15

Evgeniy Ivanov in Natural Language Processing

PaddleOCR

источник

18:41пожаловаться #16

Sergey Shulga in Natural Language Processing

Easyocr

источник

19:31пожаловаться #17

Sergey Shulga in Natural Language Processing

На русском работает плохо из коробки, надо переучивать, так как цифирки и знаки пунктуации не учитывались.

источник

19:32пожаловаться #18

Sergey Shulga in Natural Language Processing

Вторая версия labse ещё лучше первой по первому впечатлению

источник

19:35пожаловаться #19

2021 July 23

Arsen Plus in Natural Language Processing

Всем привет! Продолжая тему эмбеддингов:

1) как можно использовать sentence-level эмбеддинги для вложения текстов, которые чуть длиннее, чем 2-3 предложения? Пока в голову пришло только разбивать на предложения и усреднять эмбеддинги предложений - а есть ли какие-то более продвинутые хаки?
2) Если дообучать BERT на своих данных, то достаточно ли для получения хороших вложений будет использовать только Masked Language Modelling, или можно прикрутить еще какой-то лосс? Допустим, все данные моноязычные и без меток. Если покидаете ссылок на архив, буду оч благодарен :)

источник

14:47пожаловаться #20