Size: a a a

Natural Language Processing

2020 August 25

AB

Alexey Burnakov in Natural Language Processing
Alexey Burnakov
Привет всем! Почитал на Хабре статью про Natasha, понравилось, респект. Есть такой вопрос, я мучаю новостные тексты на предмет связки должность - ФИО. ФИО выделяется неплохо, затем я его сравниваю со списком важных для нас персон. Загвоздка в том, как поточнее выделить должность, чтобы ее сравнить. Кто-то пробовал вытягивать должности?
Бывают выраженные в виде иносказания. Занимавшая этот пост ранее (Заместитель председателя Госдумы РФ) Ольга Тимофеева не смогла продолжить работу, так как не была переизбрана депутатом. Но паттерн хочется отследить именно такой: "должность" "фио".
источник

KS

Konstantin Smith in Natural Language Processing
Должности умеет выделять pullenti
источник

R

R6 in Natural Language Processing
Осознанный банкинг и геймификация: 10 ключевых трендов в финтехе
https://m.hightech.plus/2020/08/24/razmeshivaya-sahar-sigaretoi-neiroset-openai-ostaetsya-tupoi-kak-probka
источник

AB

Alexey Burnakov in Natural Language Processing
Konstantin Smith
Должности умеет выделять pullenti
О, спасибо. Почитаю про него.
источник

A

Anthony in Natural Language Processing
Ребят, простите за глупый вопрос, я только начинающий саентолог. А у наташи есть возможность парсить прописные цифры? Просто цифры, не адреса и не деньги
источник

КМ

Кибер Медик... in Natural Language Processing
Anthony
Ребят, простите за глупый вопрос, я только начинающий саентолог. А у наташи есть возможность парсить прописные цифры? Просто цифры, не адреса и не деньги
Саентология это немного другое)

https://ru.wikipedia.org/wiki/%D0%A1%D0%B0%D0%B5%D0%BD%D1%82%D0%BE%D0%BB%D0%BE%D0%B3%D0%B8%D1%8F

Отвечая на вопрос, можно использовать yargy и написать свои правила для извлечения цифр. Предикаты gte, lte, gt, lt
источник

KS

Konstantin Smith in Natural Language Processing
Anthony
Ребят, простите за глупый вопрос, я только начинающий саентолог. А у наташи есть возможность парсить прописные цифры? Просто цифры, не адреса и не деньги
Извиняюсь за глупый ответ: насчёт Наташи не знаю, а Pullenti может и прописные числа, и римские, и разные единицы измерения, и много что ещё...
источник

A

Anthony in Natural Language Processing
Это была игра слов ;)
источник

A

Anthony in Natural Language Processing
Konstantin Smith
Извиняюсь за глупый ответ: насчёт Наташи не знаю, а Pullenti может и прописные числа, и римские, и разные единицы измерения, и много что ещё...
Спасибо, попробую!
источник

AK

Alexander Kukushkin in Natural Language Processing
Alexey Burnakov
О, спасибо. Почитаю про него.
Есть ещё демо стенд http://pullenti.ru/DemoPage.aspx и клиент для Python https://github.com/pullenti/pullenti-client
источник

AB

Alexey Burnakov in Natural Language Processing
Alexander Kukushkin
Есть ещё демо стенд http://pullenti.ru/DemoPage.aspx и клиент для Python https://github.com/pullenti/pullenti-client
Спасибо. Стенд не видел еще. Пытаюсь разобраться.
источник

Р

Ромаша in Natural Language Processing
Konstantin Smith
Извиняюсь за глупый ответ: насчёт Наташи не знаю, а Pullenti может и прописные числа, и римские, и разные единицы измерения, и много что ещё...
Константин, добрый день. А подскажите, пулленти может имена, фамилии из предложения выделять, но написанных с маленькой буквы? тестовый стенд показывает, что нет, но мало ли, может я что-то не так делаю.

Наташа, как понимаю, точно это делать не умеет.
источник

KS

Konstantin Smith in Natural Language Processing
Ромаша
Константин, добрый день. А подскажите, пулленти может имена, фамилии из предложения выделять, но написанных с маленькой буквы? тестовый стенд показывает, что нет, но мало ли, может я что-то не так делаю.

Наташа, как понимаю, точно это делать не умеет.
Да, может. Спросите в группе @Pullenti - отвечу там.
источник

AB

Alexey Burnakov in Natural Language Processing
Alexander Kukushkin
Есть ещё демо стенд http://pullenti.ru/DemoPage.aspx и клиент для Python https://github.com/pullenti/pullenti-client
А не подскажете про лицензию pullenti-wrapper? Она позволяет юзать библиотеку в комм.компании?
источник

AK

Alexander Kukushkin in Natural Language Processing
Код обертки MIT, сам PullEnti нет, обратитесь к Констатину
источник

AB

Alexey Burnakov in Natural Language Processing
Alexander Kukushkin
Код обертки MIT, сам PullEnti нет, обратитесь к Констатину
👍🏼
источник
2020 August 26

I9

Ivan 9kin in Natural Language Processing
У меня есть задача ~12 тыс наименований товаров (на русском и в плохом качестве) которые я должен разделить на группы.
Я сначала использовал правила с регулярками (очень долго составлять правила).
Вчера я нашёл nlp.
Я использую razdel + pymorphy2 для задачи.
1. word -> razdel.tokenize -> pymorphy2 tag (not (UNKN, PNCT, NUMB, LATN, ROMN)) -> .normal_form
Есть ли способ делать эту задачу по другому (ипользуя другие алгоритмы) и как  решали бы вы такую задачу.
Помогите пожалуйста!
источник

YB

Yuri Baburov in Natural Language Processing
Ivan 9kin
У меня есть задача ~12 тыс наименований товаров (на русском и в плохом качестве) которые я должен разделить на группы.
Я сначала использовал правила с регулярками (очень долго составлять правила).
Вчера я нашёл nlp.
Я использую razdel + pymorphy2 для задачи.
1. word -> razdel.tokenize -> pymorphy2 tag (not (UNKN, PNCT, NUMB, LATN, ROMN)) -> .normal_form
Есть ли способ делать эту задачу по другому (ипользуя другие алгоритмы) и как  решали бы вы такую задачу.
Помогите пожалуйста!
а сколько групп? группы (классы) фиксированные (т.е. классификация) или нет (кластеризация)?
если это задача классификации, то выбирать нейронки, ML или правила — зависит от того, сколько объектов на каждый класс у тебя есть. от 100+ — нейронки, до 10 — правила, посерёдке — нужно пробовать все варианты и искать лучший (или даже комбинацию).
источник

I9

Ivan 9kin in Natural Language Processing
типа
источник

YB

Yuri Baburov in Natural Language Processing
так, фиксированные классы, т.е. классификация, а сколько объектов на класс в среднем?
источник