Size: a a a

Natural Language Processing

2021 August 31

p

ppetr in Natural Language Processing
Коллеги, добрый день. Подскажите, чем можно воспользоваться, чтобы вытащить с текстов сущности: должность, ФИО?
Что-то вроде Томиты-парсера, Пиморфа или тп.
Например, вот статья на Аифе:
https://aif.ru/health/life/1382963
Отсюда нужно получить:
1-1. директор МОНИКИ, д.  м. н.
1-2. Филипп Палеев
2-1. руководитель Московского областного гепатологического центра, главный гепатолог МЗ Московской области
2-2. Павел Богомолов
Еще здесь есть:
3-1. первый заместитель министра здравоохранения МО
3-2. Дмитрий Марков
Вообще пример не простой, здесь много других уникальных названий, но сейчас задача в том, чтобы выделить уникальных персон.
источник

i

iamfina in Natural Language Processing
Привет! А можно ссылки на статьи? Похожую проблему решаем с генерацией вопросов
источник

N

Nadia in Natural Language Processing
Я только начала искать, научрук советовал вот это: https://aclanthology.org/P18-3022.pdf
есть еще https://telrp.springeropen.com/track/pdf/10.1186/s41039-021-00151-1.pdf и http://ijaerd.com/papers/finished_papers/Automatic%20Question%20Generation%20from%20Paragraph-IJAERDV03I1213514.pdf
Я для дипломного проекта ищу, но месяца три еще в запасе есть
источник

LD

Lednik Dwarf in Natural Language Processing
У кого-нибудь случайно нет доступа к Handwritten Kazakh and Russian (HKR) database ?
источник

Eg

Elena gisly in Natural Language Processing
привет! А вы тут не заводили заявку? https://github.com/abdoelsayed2016/HKR_Dataset
источник

LD

Lednik Dwarf in Natural Language Processing
Пока ещё нет
источник

МЕ

Максим Ермаков... in Natural Language Processing
Наверное вы уже находили, но на всякий случай напишу, что в Pullenti вместе с ФИО извлекается должность.
источник

p

ppetr in Natural Language Processing
Спасибо большое, изучим
источник

p

ppetr in Natural Language Processing
Первые тесты на их сайте - очень не плохо. Чуть допилим, и наверное нам будет достаточно. Спасибо еще раз 🤝
источник

DK

Dmitri Kapustin in Natural Language Processing
Привет! Хотел спросить как у вас построена работа с тестировщиками?

Модель transformer переводчика  должна уехать на прод. Но перед этим,  при тестировании, некоторые названия переводятся неверно. Что естественно, так как всегда есть вероятность.  Допустим я  дообучу и исправлю эти названия. Но ведь появятся другие, из 100 верных одно неверное. :))

P.S: на самом деле тестеры отличные ребята они очень помогают
источник

EE

E E in Natural Language Processing
Ну так машинное обучение никогда не работает на 100% как нормальное алгоритмическое решение задачи, всегда будут ошибки на каких-то примерах. Если нужно 100% рабочее решение - это не к машинному обучению.
источник

EE

E E in Natural Language Processing
Тут надо решить, какие ошибки критичны, какие не очень, и попробовать написать детерменированный алгоритм, отлавливающий и исправляющий критичные ошибки.
источник

EE

E E in Natural Language Processing
Если любые ошибки критичны - отказываться от машинного обучения.
источник

EE

E E in Natural Language Processing
Дообучение вряд ли поможет, где-то подправите - в другом месте выпрет.
источник

DK

Dmitri Kapustin in Natural Language Processing
ну вот да, я вижу решение чтобы по score определялась степень сомнения  в сделанно предсказании, и например при score ниже 75%  перевод игнорировался как трудный, сомнительный или невозможный
источник

EE

E E in Natural Language Processing
Только вряд ли скор будет коррелировать с вероятностью ошибки...
источник

EE

E E in Natural Language Processing
Модельки эти обычно очень уверены даже когда врут.
источник

DK

Dmitri Kapustin in Natural Language Processing
мне многда наоборот жалко глядеть на хорошее предсказание но  с низким счетом - то есть модель очень сомневалась когда его делала
источник

EE

E E in Natural Language Processing
А получить помимо предсказания еще и хорошую оценку вероятность ошибки - это отдельная тема исследований. Куча статей по этом теме есть, но простого и хорошего решения кажется пока еще не придумано. Но я могу ошибаться, можете поискать-почитать..
источник

EE

E E in Natural Language Processing
А как считается скор?
источник