Телеграмм чат группы natural_language

2020 October 01

V

Vic in Natural Language Processing

Sasha Zhu

Значит, что-то делаю не так. Могу в личку с вопросами зайти, чтобы не флудить? Завтра уже только

а какая у вас задача, то есть какая природа текстов

источник

11:35пожаловаться #1

YM

Yury Molodykh in Natural Language Processing

Коллеги, добрый день!

Официально открылся технологический конкурс ПРО//ЧТЕНИЕ на создание ИИ-ассистента, выявляющего смысловые ошибки в ЕГЭ-сочинениях школьников с призовым фондом 200 млн. руб.
С 1 октября запущена платформа тестирования решений участников, выложены датасеты и начинается квалификационный этап.
Канал конкурса в слаке: https://opendatascience.slack.com/archives/C01AVPKR7B9
Сайт конкурса: ai.upgreat.one

1 октября в 16:00 организаторы проводят онлайн-презентацию платформы, расскажут о процедуре проведения испытаний и метриках, которые оцениваются в рамках конкурса, а так же анонсируют отдельные номинации на осень 2020 года.
https://leader-id.ru/event/58692/

Leader-ID

Конкурс ПРО//ЧТЕНИЕ: запуск платформы и процедура квалификации.

Онлайн-конференция, посвященная запуску IT-платформы и процедуре квалификации первого цикла технологического конкурса Up Great ПРО//ЧТЕНИЕ.

источник

13:43пожаловаться #2

ES

Eugene Solomatin in Natural Language Processing

Yuri Baburov

Кстати, подскажите, как вы находите сейчас:
1) ФИО (краткие и полные)
2) названия компаний
3) адреса
Интересует задача детекции этих сущностей в текстах.

tm.megaputer.ru
Через API можно все типовые сущности выделить из любого текста.

источник

15:40пожаловаться #3

SA

Sergei Ananyan in Natural Language Processing

tm.megaputer.ru - модуль для извлечения имен людей, адресов, названий организаций, гео-объектов, а также любых других кастомных сущностей и фактов (предоставляет язык XPDL для их описания). С этого адреса можно скачать систему и попробовать ее у себя вживую. К себе этот модуль серверных библиотек можно интегрировать через АПИ. Хорошо работает для русского и английского, но и другие языки тоже поддерживает.

источник

17:07пожаловаться #4

YB

Yuri Baburov in Natural Language Processing

Sergei Ananyan

tm.megaputer.ru - модуль для извлечения имен людей, адресов, названий организаций, гео-объектов, а также любых других кастомных сущностей и фактов (предоставляет язык XPDL для их описания). С этого адреса можно скачать систему и попробовать ее у себя вживую. К себе этот модуль серверных библиотек можно интегрировать через АПИ. Хорошо работает для русского и английского, но и другие языки тоже поддерживает.

А есть какие-то метрики системы?

источник

17:54пожаловаться #5

SA

Sergei Ananyan in Natural Language Processing

Yuri Baburov

А есть какие-то метрики системы?

Навскидку, для стандартных сущностей 92-97 по точности и 85-95 по полноте. Но эти оценки сильно зависят от области применения. Если Вас интересуют результаты оценки качества на каком-то конкретном размеченном корпусе, то пришлите ссылку на него, или можете попробовать сами протестировать. Ну а для кастомных сущностей и фактов, качество извлечения сильно зависит от квалификации человека, строящего решение. Для знакомства с языком XPDL, можно посмотреть видео-лекции: https://www.youtube.com/watch?v=v3ewBJ7eivc&list=PLSvizcZfU8dSByziG8nu2mLAR-tyWQ_PL (на английском). Или можно посмотреть документацию по языку на русском (этот язык - российская разработка): https://www.megaputer.ru/obuchenie/

YouTube

Basic PDL: Introduction Session 1

What is PDL? PolyAnalyst uses a proprietary language referred to as PDL or Pattern Definition Language. It is used to access text in query format to perform entity extractions, classification, and general search for linguistic patterns. This session will provide an introduction to the key components of writing and understanding this powerful tool within PolyAnalyst.

This is the first session of the PDL Training Series, where we define what PDL means and the importance. We also share information regarding Lexical Functions, Boolean Operators and Set Operators within the PolyAnalyst analytical software.

Subscribe to learn more about PolyAnalyst and text analysis innovations:
http://www.youtube.com/c/Megaputer?sub_confirmation=1

Follow Megaputer:
Twitter: https://twitter.com/megaputer
TwitterTips: https://twitter.com/polyanalysttips
Facebook: https://www.facebook.com/megaputerintelligence
LinkedIn: https://www.linkedin.com/company/megaputer-intelligence

Learn more:
Company Website: https://www.megaputer.com…

источник

20:16пожаловаться #6

2020 October 02

PG

Prohor Gladkikh in Natural Language Processing

Sergei Ananyan

tm.megaputer.ru - модуль для извлечения имен людей, адресов, названий организаций, гео-объектов, а также любых других кастомных сущностей и фактов (предоставляет язык XPDL для их описания). С этого адреса можно скачать систему и попробовать ее у себя вживую. К себе этот модуль серверных библиотек можно интегрировать через АПИ. Хорошо работает для русского и английского, но и другие языки тоже поддерживает.

А какая скорость работы на больших документах, скажем, pdf 300 страниц? На демо можно запустить лишь ограниченный текст.

источник

00:29пожаловаться #7

SA

Sergei Ananyan in Natural Language Processing

Prohor Gladkikh

А какая скорость работы на больших документах, скажем, pdf 300 страниц? На демо можно запустить лишь ограниченный текст.

На обычном лаптопе скорость извлечения полного набора стандартных сущностей: порядка 70 kb/s - на английских текстах, порядка 50 kb/s - на русском. Одна страница - это 5 kb текста, 300 страниц - 1500 kb. Значит время анализа 300 страниц будет около 22 секунд (English) или 30 секунд (русский). PDF сначала запускается через парсер для извлечения текста, который Мегапьютер тоже может предоставить (но в ТМ модуль он не входит). Скорость PDF парсера на порядки выше чем скорость извлечения сущностей. Так что времени анализа это фактически не добавляет.

источник

01:10пожаловаться #8

SA

Sergei Ananyan in Natural Language Processing

Prohor Gladkikh

А какая скорость работы на больших документах, скажем, pdf 300 страниц? На демо можно запустить лишь ограниченный текст.

Но это оценки для одновременной обработки потока документов - вычисления распараллеливаются. А если реально считать надо именно на одном документе (документы подаются только последовательно), то скорость конечно упадет. Скорость извлечения на русском тогда будет только где-то 7-10 kb/s.

источник

01:31пожаловаться #9

SS

Sergey Sikorskiy in Natural Language Processing

Sergei Ananyan

На обычном лаптопе скорость извлечения полного набора стандартных сущностей: порядка 70 kb/s - на английских текстах, порядка 50 kb/s - на русском. Одна страница - это 5 kb текста, 300 страниц - 1500 kb. Значит время анализа 300 страниц будет около 22 секунд (English) или 30 секунд (русский). PDF сначала запускается через парсер для извлечения текста, который Мегапьютер тоже может предоставить (но в ТМ модуль он не входит). Скорость PDF парсера на порядки выше чем скорость извлечения сущностей. Так что времени анализа это фактически не добавляет.

Если не секрет, каким языком программирования Вы пользуетесь, что-бы добиться такой производительности?

источник

02:09пожаловаться #10

SA

Sergei Ananyan in Natural Language Processing

Sergey Sikorskiy

Если не секрет, каким языком программирования Вы пользуетесь, что-бы добиться такой производительности?

Система разработана на языке С++. А сами правила (запросы) для извлечения произвольных сущностей и фактов создаются пользователем на языке XPDL, который поддерживает Мегапьютер. Для извлечения стандартных сущностей, фактов и сентиментов правила зашиты в систему. И, кстати, у Мегапьютера реализована специальная система для извлечения фактов из медицинских записей пациентов, правда только для английского языка пока. Если Вам это будет интересно, можем обсудить эту тему отдельно (наверное для большинства пользователей форума эта тема неактуальна).

источник

06:34пожаловаться #11

AZ

Alexandr Zamaraev in Natural Language Processing

Sergei Ananyan

Система разработана на языке С++. А сами правила (запросы) для извлечения произвольных сущностей и фактов создаются пользователем на языке XPDL, который поддерживает Мегапьютер. Для извлечения стандартных сущностей, фактов и сентиментов правила зашиты в систему. И, кстати, у Мегапьютера реализована специальная система для извлечения фактов из медицинских записей пациентов, правда только для английского языка пока. Если Вам это будет интересно, можем обсудить эту тему отдельно (наверное для большинства пользователей форума эта тема неактуальна).

А чем оно принципиально отличается от тамиты или наташи?

источник

07:32пожаловаться #12

AW

Alex Wortega in Natural Language Processing

Коллеги а есть специализированные модели для машинного перевода? Типа медицинская лексика и тд

источник

08:18пожаловаться #13

YB

Yuri Baburov in Natural Language Processing

Sergei Ananyan

На обычном лаптопе скорость извлечения полного набора стандартных сущностей: порядка 70 kb/s - на английских текстах, порядка 50 kb/s - на русском. Одна страница - это 5 kb текста, 300 страниц - 1500 kb. Значит время анализа 300 страниц будет около 22 секунд (English) или 30 секунд (русский). PDF сначала запускается через парсер для извлечения текста, который Мегапьютер тоже может предоставить (но в ТМ модуль он не входит). Скорость PDF парсера на порядки выше чем скорость извлечения сущностей. Так что времени анализа это фактически не добавляет.

Спасибо. А что насчёт сравнений качества?

источник

09:34пожаловаться #14

GF

Grigory Frantsuzov in Natural Language Processing

Alex Wortega

Коллеги а есть специализированные модели для машинного перевода? Типа медицинская лексика и тд

у абби например

источник

10:31пожаловаться #15

A

Ajay in Natural Language Processing

Sergey Dulikov

I think you may want to implement a some sort of NER to select amount and pereodicity, and then multiply them

NER will help me find whether some part of the sentence represents periodicity, is it also possible to know what it actually represents - like daily is 1, once in two days means half and so on...?

источник

12:25пожаловаться #16

RS

Roman Samarev in Natural Language Processing

Ajay

NER will help me find whether some part of the sentence represents periodicity, is it also possible to know what it actually represents - like daily is 1, once in two days means half and so on...?

https://nlp.stanford.edu/software/sutime.html

nlp.stanford.edu

The Stanford NLP Group

Performing groundbreaking
Natural Language Processing research since 1999.

источник

12:33пожаловаться #17

RS

Roman Samarev in Natural Language Processing

Ajay

NER will help me find whether some part of the sentence represents periodicity, is it also possible to know what it actually represents - like daily is 1, once in two days means half and so on...?

For medical records, also check https://ctakes.apache.org/whycTAKES.html

источник

12:37пожаловаться #18

ВГ

Вадим Гилемзянов... in Natural Language Processing

Ребят, такой вопрос. Кто использовал берт для определения симулярити групп. И если использовали - был ли опыт с использованием ELMO-BERT vs USE?

источник

12:48пожаловаться #19

AS

Arthur Saprykin in Natural Language Processing

Вадим Гилемзянов

Ребят, такой вопрос. Кто использовал берт для определения симулярити групп. И если использовали - был ли опыт с использованием ELMO-BERT vs USE?

Привет! Был опыт, и победил USE, в моем случае.

Делил кластера, и достаточно неплохо вышло.

источник

15:39пожаловаться #20