Size: a a a

Natural Language Processing

2021 January 12

SK

Sergey Korol in Natural Language Processing
Всем привет. Может кто подскажет наиболее быстрый классификатор интентов? Нужно добиться response time в идеале не более 50 ms на железе уровня Jetson Xavier NX с m2 nvme. Пробовал Rasa с DIET classifier. С точностью проблем нет, но время отклика ~1 сек, что очень долго для моего кейса.
источник

TM

Toemik Mnemonic in Natural Language Processing
Всем привет! Что посоветуете использовать для  определения суперклассов (их количества и состава вложенных классов) в иерархической классификации?  Сейчас что бы определить состав  и количество суперклассов считаю для метрик, на основе которых и классифицируем фразы, Краскела-Уоллиса.  Если нулевая гипотеза не отклоняется  классы группируются в один суперкласс. Если отвергается, они в разных суперклассах...наверняка есть что нить поумнее да поближе к отраслевому стандарту.
источник

N

Natalia in Natural Language Processing
Sergey Shulga
Народ, кому то встречались мат-фильтры продвинутые? пока нашел только пару монструозных регулярок и работу со словарем. Но они неустойчивы транслитерационным заменам и другим трюкам. Как я понимаю, задача вообще не простая совсем.
кстати, про продвинутые ничего не знаю, но тут вот есть что-то для статьи из BSNLP2017: https://github.com/artemovae/filter
сборник тут: http://bsnlp-2017.cs.helsinki.fi/bsnlp2017-book.pdf
источник

OG

Olga Gracheva in Natural Language Processing
Привет! Не так давно занимаюсь библиотекой natasha, необходимо лемматизировать словосочетания. Если лемматизировать пословно, то выходит ерунда, например, "соленая карамель" становится "соленый карамель". Я знаю точно,что словосочетания в духе "мид россии" при этом через span.normalize нормализуются корректно. А нет ли такого решения в наташе/еще где-то для всех словосочетаний?
источник

N

Natalia in Natural Language Processing
извините, но лемматизация в данном случае верная. если вы полезете в словарь, там будет начальная форма м.р. ед.ч.
источник

N

Natalia in Natural Language Processing
соленый и соленая — это одно и то же слово
источник

OG

Olga Gracheva in Natural Language Processing
Возможно, я не так написала. Интересует,чтобы, например, "черную рубашку" стало "черная рубашка", а не "черный рубашка" и тп, то есть именно приведение словосочетаний к какой-то начальной форме
источник

➔m

➔◾ maria myznikova... in Natural Language Processing
У ярги был gnc  relation()
источник

E

Elena in Natural Language Processing
это не лемматизация тогда, а приведение к именительному падежу
источник

➔m

➔◾ maria myznikova... in Natural Language Processing
Olga Gracheva
Возможно, я не так написала. Интересует,чтобы, например, "черную рубашку" стало "черная рубашка", а не "черный рубашка" и тп, то есть именно приведение словосочетаний к какой-то начальной форме
Т.е., выделите главное слово, приведите к начальной форме и согласуйте слова через gnc relation c ним
источник

AK

Alexander Kukushkin in Natural Language Processing
Olga Gracheva
Привет! Не так давно занимаюсь библиотекой natasha, необходимо лемматизировать словосочетания. Если лемматизировать пословно, то выходит ерунда, например, "соленая карамель" становится "соленый карамель". Я знаю точно,что словосочетания в духе "мид россии" при этом через span.normalize нормализуются корректно. А нет ли такого решения в наташе/еще где-то для всех словосочетаний?
В проекте Natasha готового нет, но 1. вы можете вручную составить span и сделать ему normalize 2. расковырять код, вызвать syntax_normalize https://github.com/natasha/natasha/blob/master/natasha/norm.py#L119. Обратите внимание что процедура использует инфу о ситаксических связях, нужно чтобы фраза была внутри предложения или нужно вручную расставить связи, пометить где корень
источник

N

Natalia in Natural Language Processing
так, извините
источник

N

Natalia in Natural Language Processing
в общем, да, задача лемматизации именно в том, чтобы давать некую начальную форму СЛОВА как такового (а не как оно употреблено в тексте), потому что это часто куда более актуальная задача, то есть остальное - через чанкинг или вроде того и приведение к нужному вам виду
источник

D

D in Natural Language Processing
как вариант в pymorphy сделать .inflect
источник

N

Natalia in Natural Language Processing
тоже, кстати, вариант, но без предобработки (вычленения ИГ или чего там) не обойтись
источник

N

Natalia in Natural Language Processing
но, короче, не стоит называть ерундой то, что дают лемматизаторы, потому что они всегда будут давать начальную форму слова - типа как если вы читаете текст на плохо знакомом языке, и вам нужно понять, какое слово искать в словаре, чтобы посмотреть его значение
источник

N

Natalia in Natural Language Processing
инвариант всех словоформ слова
источник

OG

Olga Gracheva in Natural Language Processing
Alexander Kukushkin
В проекте Natasha готового нет, но 1. вы можете вручную составить span и сделать ему normalize 2. расковырять код, вызвать syntax_normalize https://github.com/natasha/natasha/blob/master/natasha/norm.py#L119. Обратите внимание что процедура использует инфу о ситаксических связях, нужно чтобы фраза была внутри предложения или нужно вручную расставить связи, пометить где корень
Подскажи, пожалуйста, а каким образом можно вручную сделать span?
источник

N

Natalia in Natural Language Processing
а ещё вопрос: вам только с согласованием нужны словосочетания?
источник

N

Natalia in Natural Language Processing
есть такая репа для недавней статьи: https://github.com/Aditi138/LASE-Agreement
источник