Size: a a a

Natural Language Processing

2020 October 01

V

Vic in Natural Language Processing
Sasha Zhu
Значит, что-то делаю не так. Могу в личку с вопросами зайти, чтобы не флудить? Завтра уже только
а какая у вас задача, то есть какая природа текстов
источник

YM

Yury Molodykh in Natural Language Processing
Коллеги, добрый день!

Официально открылся технологический конкурс ПРО//ЧТЕНИЕ на создание ИИ-ассистента, выявляющего смысловые ошибки в ЕГЭ-сочинениях школьников с призовым фондом 200 млн. руб.
С 1 октября запущена платформа тестирования решений участников, выложены датасеты и начинается квалификационный этап.
Канал конкурса в слаке: https://opendatascience.slack.com/archives/C01AVPKR7B9
Сайт конкурса: ai.upgreat.one

1 октября в 16:00 организаторы проводят онлайн-презентацию платформы, расскажут о процедуре проведения испытаний и метриках, которые оцениваются в рамках конкурса, а так же анонсируют отдельные номинации на осень 2020 года.
https://leader-id.ru/event/58692/
источник

ES

Eugene Solomatin in Natural Language Processing
Yuri Baburov
Кстати, подскажите, как вы находите сейчас:
1) ФИО (краткие и полные)
2) названия компаний
3) адреса
Интересует задача детекции этих сущностей в текстах.
tm.megaputer.ru
Через API можно все типовые сущности выделить из любого текста.
источник

SA

Sergei Ananyan in Natural Language Processing
tm.megaputer.ru  - модуль для извлечения имен людей, адресов, названий организаций, гео-объектов, а также любых других кастомных сущностей и фактов (предоставляет язык XPDL для их описания). С этого адреса можно скачать систему и попробовать ее у себя вживую. К себе этот модуль серверных библиотек можно интегрировать через АПИ. Хорошо работает для русского и английского, но и другие языки тоже поддерживает.
источник

YB

Yuri Baburov in Natural Language Processing
Sergei Ananyan
tm.megaputer.ru  - модуль для извлечения имен людей, адресов, названий организаций, гео-объектов, а также любых других кастомных сущностей и фактов (предоставляет язык XPDL для их описания). С этого адреса можно скачать систему и попробовать ее у себя вживую. К себе этот модуль серверных библиотек можно интегрировать через АПИ. Хорошо работает для русского и английского, но и другие языки тоже поддерживает.
А есть какие-то метрики системы?
источник

SA

Sergei Ananyan in Natural Language Processing
Yuri Baburov
А есть какие-то метрики системы?
Навскидку, для стандартных сущностей 92-97 по точности и 85-95 по полноте. Но эти оценки сильно зависят от области применения. Если Вас интересуют результаты оценки качества на каком-то конкретном размеченном корпусе, то пришлите ссылку на него, или можете попробовать сами протестировать. Ну а для кастомных сущностей и фактов, качество извлечения сильно зависит от квалификации человека, строящего решение. Для знакомства с языком XPDL, можно посмотреть видео-лекции: https://www.youtube.com/watch?v=v3ewBJ7eivc&list=PLSvizcZfU8dSByziG8nu2mLAR-tyWQ_PL (на английском). Или можно посмотреть документацию по языку на русском (этот язык - российская разработка): https://www.megaputer.ru/obuchenie/
источник
2020 October 02

PG

Prohor Gladkikh in Natural Language Processing
Sergei Ananyan
tm.megaputer.ru  - модуль для извлечения имен людей, адресов, названий организаций, гео-объектов, а также любых других кастомных сущностей и фактов (предоставляет язык XPDL для их описания). С этого адреса можно скачать систему и попробовать ее у себя вживую. К себе этот модуль серверных библиотек можно интегрировать через АПИ. Хорошо работает для русского и английского, но и другие языки тоже поддерживает.
А какая скорость работы на больших документах, скажем, pdf 300 страниц? На демо можно запустить лишь ограниченный текст.
источник

SA

Sergei Ananyan in Natural Language Processing
Prohor Gladkikh
А какая скорость работы на больших документах, скажем, pdf 300 страниц? На демо можно запустить лишь ограниченный текст.
На обычном лаптопе  скорость извлечения полного набора стандартных сущностей: порядка 70 kb/s - на английских текстах, порядка 50  kb/s - на русском. Одна страница - это 5 kb текста, 300 страниц - 1500 kb. Значит время анализа 300 страниц будет около 22  секунд (English) или 30 секунд (русский).  PDF сначала запускается через парсер для извлечения текста, который Мегапьютер тоже может предоставить (но в ТМ модуль он не входит). Скорость PDF парсера на порядки выше чем скорость извлечения сущностей. Так что времени анализа это фактически не добавляет.
источник

SA

Sergei Ananyan in Natural Language Processing
Prohor Gladkikh
А какая скорость работы на больших документах, скажем, pdf 300 страниц? На демо можно запустить лишь ограниченный текст.
Но это оценки для одновременной обработки потока документов - вычисления распараллеливаются. А если реально считать надо именно на одном документе (документы подаются только последовательно), то скорость конечно упадет. Скорость извлечения на русском тогда будет только где-то 7-10 kb/s.
источник

SS

Sergey Sikorskiy in Natural Language Processing
Sergei Ananyan
На обычном лаптопе  скорость извлечения полного набора стандартных сущностей: порядка 70 kb/s - на английских текстах, порядка 50  kb/s - на русском. Одна страница - это 5 kb текста, 300 страниц - 1500 kb. Значит время анализа 300 страниц будет около 22  секунд (English) или 30 секунд (русский).  PDF сначала запускается через парсер для извлечения текста, который Мегапьютер тоже может предоставить (но в ТМ модуль он не входит). Скорость PDF парсера на порядки выше чем скорость извлечения сущностей. Так что времени анализа это фактически не добавляет.
Если не секрет, каким языком программирования Вы пользуетесь, что-бы добиться такой производительности?
источник

SA

Sergei Ananyan in Natural Language Processing
Sergey Sikorskiy
Если не секрет, каким языком программирования Вы пользуетесь, что-бы добиться такой производительности?
Система разработана на языке С++. А сами правила (запросы) для извлечения произвольных сущностей и фактов создаются пользователем на языке XPDL, который поддерживает Мегапьютер. Для извлечения стандартных сущностей, фактов и сентиментов правила зашиты в систему. И, кстати, у Мегапьютера реализована специальная система для извлечения фактов из медицинских записей пациентов, правда только для английского языка пока. Если Вам это будет интересно, можем обсудить эту тему отдельно (наверное для большинства пользователей форума эта тема неактуальна).
источник

AZ

Alexandr Zamaraev in Natural Language Processing
Sergei Ananyan
Система разработана на языке С++. А сами правила (запросы) для извлечения произвольных сущностей и фактов создаются пользователем на языке XPDL, который поддерживает Мегапьютер. Для извлечения стандартных сущностей, фактов и сентиментов правила зашиты в систему. И, кстати, у Мегапьютера реализована специальная система для извлечения фактов из медицинских записей пациентов, правда только для английского языка пока. Если Вам это будет интересно, можем обсудить эту тему отдельно (наверное для большинства пользователей форума эта тема неактуальна).
А чем оно принципиально отличается от тамиты или наташи?
источник

AW

Alex Wortega in Natural Language Processing
Коллеги а есть специализированные модели для машинного перевода? Типа медицинская лексика и тд
источник

YB

Yuri Baburov in Natural Language Processing
Sergei Ananyan
На обычном лаптопе  скорость извлечения полного набора стандартных сущностей: порядка 70 kb/s - на английских текстах, порядка 50  kb/s - на русском. Одна страница - это 5 kb текста, 300 страниц - 1500 kb. Значит время анализа 300 страниц будет около 22  секунд (English) или 30 секунд (русский).  PDF сначала запускается через парсер для извлечения текста, который Мегапьютер тоже может предоставить (но в ТМ модуль он не входит). Скорость PDF парсера на порядки выше чем скорость извлечения сущностей. Так что времени анализа это фактически не добавляет.
Спасибо. А что насчёт сравнений качества?
источник

GF

Grigory Frantsuzov in Natural Language Processing
Alex Wortega
Коллеги а есть специализированные модели для машинного перевода? Типа медицинская лексика и тд
у абби например
источник

A

Ajay in Natural Language Processing
Sergey Dulikov
I think you may want to implement a some sort of NER to select amount and pereodicity, and then multiply them
NER will help me find whether some part of the sentence represents periodicity, is it also possible to know what it actually represents - like daily is 1, once in two days means half and so on...?
источник

RS

Roman Samarev in Natural Language Processing
Ajay
NER will help me find whether some part of the sentence represents periodicity, is it also possible to know what it actually represents - like daily is 1, once in two days means half and so on...?
источник

RS

Roman Samarev in Natural Language Processing
Ajay
NER will help me find whether some part of the sentence represents periodicity, is it also possible to know what it actually represents - like daily is 1, once in two days means half and so on...?
For medical records, also check https://ctakes.apache.org/whycTAKES.html
источник

ВГ

Вадим Гилемзянов... in Natural Language Processing
Ребят, такой вопрос. Кто использовал берт для определения симулярити групп. И если использовали - был ли опыт с использованием ELMO-BERT vs USE?
источник

AS

Arthur Saprykin in Natural Language Processing
Вадим Гилемзянов
Ребят, такой вопрос. Кто использовал берт для определения симулярити групп. И если использовали - был ли опыт с использованием ELMO-BERT vs USE?
Привет! Был опыт, и победил USE, в моем случае.

Делил кластера, и достаточно неплохо вышло.
источник