Size: a a a

Natural Language Processing

2018 April 09

AK

Alexander Kukushkin in Natural Language Processing
Ребят, есть вакансия NLP-разработчика на Python. Ищу к себе в lab.alexkuk.ru. Задача извлечения сущностей из текстов судебных актов: имена судей, участников, представителей, суть иска. Используется технология "Наташа" https://habrahabr.ru/post/349864/.

Есть 50 000 000 pdf-документов из российских судов (пример pdf-а https://gist.github.com/alexanderkuk/84c02d7b95f83de3e5befe27c03cdbfe#file-zzz_example-pdf, больше на http://kad.arbitr.ru/). Для подготовки к заседанию, юрист просматривает практику по аналогичным делам. Архив pdf-документов нужно фильтровать по имени судьи, ссылкам на законы и массе других критериев.

Есть крупный клиент, который хочет сделать сервис, основанный на этих данных, исправить проблемы существующих решений, добавить магию машинного обучения. Сейчас есть альфа-версия сервиса, нужно править баги, которые приходят от заказчика, добавлять новую функциональность.

Задачи:

 * Разработка, поддержка грамматик для Yargy-парсера https://github.com/natasha/yargy.
 * Создание, отладка статистических моделей. Иногда не получается извлечь сущности с помощью правил, тогда используются простые CRF-модели. Может быть, стоит перейти на что-то посложнее.
 * Тестирование качества, починка багов.
 * Разработка и поддержка веб-сервиса с REST-API.
 * Оптимизация скорости обработки. Нужно чтобы сервис периодически обрабатывал 50 000 000 дел из архива и ежедневно парсил несколько тысяч новых дел.
 
Необходимые навыки:

 * Хорошее знание Python, опыт работы с Git.
 * Опыт обработки текстов на естественном языке. Плюсом будет опыт использования Томита-парсера или Yargy-парсера, представление об ML-алгоритмах для обработки текста.
 * Плюсом будет опыт создания несложных веб-сервисов.

Работа удалённая. Возможна частичная занятость. Нужно будет сделать тестовую задачу https://gist.github.com/alexanderkuk/554499843fb3875ad3861e2b403126cc. Советую заранее посмотреть, она даёт хорошее представление о том, чем нужно будет заниматься. Рассказ о себе и вашем опыте, пожалуйста, присылайте на alex@alexkuk.ru.
источник

MA

Mark Adamenko in Natural Language Processing
Alexander Kukushkin
Ребят, есть вакансия NLP-разработчика на Python. Ищу к себе в lab.alexkuk.ru. Задача извлечения сущностей из текстов судебных актов: имена судей, участников, представителей, суть иска. Используется технология "Наташа" https://habrahabr.ru/post/349864/.

Есть 50 000 000 pdf-документов из российских судов (пример pdf-а https://gist.github.com/alexanderkuk/84c02d7b95f83de3e5befe27c03cdbfe#file-zzz_example-pdf, больше на http://kad.arbitr.ru/). Для подготовки к заседанию, юрист просматривает практику по аналогичным делам. Архив pdf-документов нужно фильтровать по имени судьи, ссылкам на законы и массе других критериев.

Есть крупный клиент, который хочет сделать сервис, основанный на этих данных, исправить проблемы существующих решений, добавить магию машинного обучения. Сейчас есть альфа-версия сервиса, нужно править баги, которые приходят от заказчика, добавлять новую функциональность.

Задачи:

 * Разработка, поддержка грамматик для Yargy-парсера https://github.com/natasha/yargy.
 * Создание, отладка статистических моделей. Иногда не получается извлечь сущности с помощью правил, тогда используются простые CRF-модели. Может быть, стоит перейти на что-то посложнее.
 * Тестирование качества, починка багов.
 * Разработка и поддержка веб-сервиса с REST-API.
 * Оптимизация скорости обработки. Нужно чтобы сервис периодически обрабатывал 50 000 000 дел из архива и ежедневно парсил несколько тысяч новых дел.
 
Необходимые навыки:

 * Хорошее знание Python, опыт работы с Git.
 * Опыт обработки текстов на естественном языке. Плюсом будет опыт использования Томита-парсера или Yargy-парсера, представление об ML-алгоритмах для обработки текста.
 * Плюсом будет опыт создания несложных веб-сервисов.

Работа удалённая. Возможна частичная занятость. Нужно будет сделать тестовую задачу https://gist.github.com/alexanderkuk/554499843fb3875ad3861e2b403126cc. Советую заранее посмотреть, она даёт хорошее представление о том, чем нужно будет заниматься. Рассказ о себе и вашем опыте, пожалуйста, присылайте на alex@alexkuk.ru.
Посмотрите вот эту разработку - https://github.com/AdamMeyers/Web-of-Law
источник

AF

Alexander Fedorenko in Natural Language Processing
Мне понравилось. Унес и себе для более детального ознакомления.  👍
источник
2018 April 11

AK

Alexander Kukushkin in Natural Language Processing
Пара  примеров-уроков использования Yargy-парсера
1. Парсинг резюме http://nbviewer.jupyter.org/github/natasha/yargy-examples/blob/master/01_resume/notes.ipynb#Intro
2. Парсинг названий товаров http://nbviewer.jupyter.org/github/natasha/yargy-examples/blob/master/02_console/notes.ipynb#Extractor

Есть желание оформить их в виде туториала на Хабр
источник

g

gleb in Natural Language Processing
👍
источник
2018 April 13

M

Marat in Natural Language Processing
Господа, мы тут в лаборатории, благодаря общению с @alexkuk , задались вопросом: а чем именно люди занимаются в NLP. Поэтому запили опросик https://goo.gl/6nYxhR
источник

M

Marat in Natural Language Processing
Буду благодарен, если скинете мне ссылки на группы, посвященные обработке естественного языка
источник

D

Denis in Natural Language Processing
А результаты выложите потом?)
источник

g

gleb in Natural Language Processing
да, где можно будет результаты посмотреть?
источник

M

Marat in Natural Language Processing
Я думаю, что в хабр напишем
источник

M

Marat in Natural Language Processing
Ну и тем, кто почту напишут им ссылку вышлем
источник

AK

Alexander Kukushkin in Natural Language Processing
Норм опрос, вопросы такие конкретные. Предлагаю показывать результаты тем кто нормально заполнит
источник

a

abc in Natural Language Processing
Dmitry
Ага, вижу, через pymorphy2
получилось завести spaCy для русского языка ? ) Я пока только получаю ошибку No compatible model found for 'ru' (spaCy v2.0.11).
источник
2018 April 14

PP

Pavel Philippovich in Natural Language Processing
А для какой задачи именно?
источник

D

Dmitry in Natural Language Processing
abc
получилось завести spaCy для русского языка ? ) Я пока только получаю ошибку No compatible model found for 'ru' (spaCy v2.0.11).
Аналогично
источник

a

abc in Natural Language Processing
Pavel Philippovich
А для какой задачи именно?
python -m spacy download ru
источник

a

abc in Natural Language Processing
сейчас попробую из гита поставить а не из пип
источник

a

abc in Natural Language Processing
с установкой из гита такой же результат (
источник

a

abc in Natural Language Processing
в общем модели пока не готовы
источник

a

abc in Natural Language Processing
а кому то из вас удалось добавить поддержку русского языка к RasaNLU ?
источник