Size: a a a

Natural Language Processing

2017 May 19

🕵

🕵🏻 Макс in Natural Language Processing
Dima Veselov
У них была возможность указать свой фикс-лист, как-раз для таких случаев, насколько я знаю.
Спасибо, гляну сейчас. Я просто использую обертку на Python, она не дает никаких особых настроек.
источник

🕵

🕵🏻 Макс in Natural Language Processing
pymystem3, которая
источник

|

||||| in Natural Language Processing
Dima Veselov
Привет. Для проверки длины строк есть встроенный лейбл: https://github.com/bureaucratic-labs/yargy/blob/master/yargy/labels.py#L86
Можно написать такой же, но для чисел (у них token.forms[0]['normal_form'] - текстовое представление)
А можно ли как-то сделать два условия для токена: gram(NUM) и length_eq(4)?
источник

🕵

🕵🏻 Макс in Natural Language Processing
А в python-mystem снятие омонимии возможно тоже, да?
источник

DV

Dima Veselov in Natural Language Processing
|||||
А можно ли как-то сделать два условия для токена: gram(NUM) и length_eq(4)?
Да, нужно просто передать список лейблов в правилах, как тут: https://github.com/bureaucratic-labs/natasha/blob/master/natasha/grammars/person/grammars.py#L45
Если все лейблы проходят - токен сматчится.
источник

DV

Dima Veselov in Natural Language Processing
🕵🏻 Макс
А в python-mystem снятие омонимии возможно тоже, да?
Нет, в libmystem.so от яндекса, которую использует библиотека эту фичу вырезали.
источник

DV

Dima Veselov in Natural Language Processing
Т.е. снятие морфологической неоднозначности есть только в бинарнике mystem
источник

🕵

🕵🏻 Макс in Natural Language Processing
Dima Veselov
Нет, в libmystem.so от яндекса, которую использует библиотека эту фичу вырезали.
😢
источник

🕵

🕵🏻 Макс in Natural Language Processing
Прямо беда с этим NLP, ни одного готового решения нет. Приходится какого-то франкенштейна делать.
источник

S

Shine in Natural Language Processing
обколются этими вашими nlp
источник

DV

Dima Veselov in Natural Language Processing
Готовые решения есть, просто нужно деньги занести :)
RCO, ABBYY, PullEnti, вот эти ребята.
источник

DV

Dima Veselov in Natural Language Processing
источник

🕵

🕵🏻 Макс in Natural Language Processing
Да, этот список я уже поизучал )
источник

🕵

🕵🏻 Макс in Natural Language Processing
Еще забавный результат выдал сегодня Mystem:
{'text': 'клеют', 'analysis': [{'lex': 'клеть', 'qual': 'bastard', 'gr': 'V,сов,нп=непрош,мн,изъяв,3-л'}]}

Это ошибка орфографическая, конечно. Но что за 'qual': 'bastard'? )
источник

🕵

🕵🏻 Макс in Natural Language Processing
А, нашел в примерах. )
источник
2017 June 14

EV

Egor V. in Natural Language Processing
Привет. Наташа использует только правила или ещё и машинное обучение?
источник

DV

Dima Veselov in Natural Language Processing
Привет. Прямо сейчас - частично. Например, морфанализатор умеет предсказывать неизвестные слова (там используются статистические методы)
В дальнейшем, я хочу использовать, например, статистический токенизатор - это тоже машинное обучение.
источник

EV

Egor V. in Natural Language Processing
Пишу обзор инструментов для вкр. Решил описать её.
источник
2017 June 15

🕵

🕵🏻 Макс in Natural Language Processing
Где можно будет почитать обзор? :)
источник
2017 June 18

DB

Dmitry Bespalov in Natural Language Processing
@dveselov, привет! Выражаю всяческое уважение за проделанную работу. Скажи, пожалуйста, как бы ты рекомендовал подходить добыче именнованных сущностей с помощью Наташи в большом тестке, например, >5000 знаков?
источник