Size: a a a

Natural Language Processing

2021 January 21

YS

Yaroslav Seliverstov in Natural Language Processing
Друзья всем привет! Может кто-нибудь подсказать библиотеки для получения отглагольных существительных на русском?
источник

AW

Alex Wortega in Natural Language Processing
Господа а что то кроме LDA/LSI  есть для моделирования топиков из текста? Задача чтобы вытащить основные темы из текста для дальнейшего расположения этих текстов в презу.

Ну те каждый слайд имеет свою тему по этому необходима довольно высокая точность, при этом нельзя вытащить какие то фичи которые будут характеризовать тот или иной слайд.
источник

ni

n i in Natural Language Processing
Alex Wortega
Господа а что то кроме LDA/LSI  есть для моделирования топиков из текста? Задача чтобы вытащить основные темы из текста для дальнейшего расположения этих текстов в презу.

Ну те каждый слайд имеет свою тему по этому необходима довольно высокая точность, при этом нельзя вытащить какие то фичи которые будут характеризовать тот или иной слайд.
источник

AW

Alex Wortega in Natural Language Processing
О, а с русским у abae все плохо?
источник

ni

n i in Natural Language Processing
Ну это смотря какую модель эмбедингов туда положить
источник

KS

Konstantin Smith in Natural Language Processing
Yaroslav Seliverstov
Друзья всем привет! Может кто-нибудь подсказать библиотеки для получения отглагольных существительных на русском?
В SDK Pullenti есть так называемые "дериватные группы", содержащие однокоренные слова разных частей речи (ПРОИЗВОДСТВО ПРОИЗВОДИТЬ ПРОИЗВЕСТИ ПРОИЗВОДСТВЕННЫЙ ПРОИЗВОДИМЫЙ ПРОИЗВЕДЁННЫЙ и т.д.). В статическом классе Pullenti.Semantic.Utils.DerivateService есть функция FindDerivates(словоформа). Можно из одной части речи в другую, или, например, для несовершенной формы глагола получить совершенную и т.п. Группа содержит не только русские, но и украинские слова (ещё и английские, но тут качество не гарантируется). Подробности см. в документации. Сейчас в словаре около 15000 групп.
источник

KS

Konstantin Smith in Natural Language Processing
Например, если "плагиат" искать не на уровне нормализованных слов, а на уровне групп, то может искаться межязыковой плагиат.
источник

YS

Yaroslav Seliverstov in Natural Language Processing
Konstantin Smith
В SDK Pullenti есть так называемые "дериватные группы", содержащие однокоренные слова разных частей речи (ПРОИЗВОДСТВО ПРОИЗВОДИТЬ ПРОИЗВЕСТИ ПРОИЗВОДСТВЕННЫЙ ПРОИЗВОДИМЫЙ ПРОИЗВЕДЁННЫЙ и т.д.). В статическом классе Pullenti.Semantic.Utils.DerivateService есть функция FindDerivates(словоформа). Можно из одной части речи в другую, или, например, для несовершенной формы глагола получить совершенную и т.п. Группа содержит не только русские, но и украинские слова (ещё и английские, но тут качество не гарантируется). Подробности см. в документации. Сейчас в словаре около 15000 групп.
Спасибо! Не слышал даже от таком. Сегодня посмотрю.
источник

AZ

Alexandra Zh in Natural Language Processing
Konstantin Smith
В SDK Pullenti есть так называемые "дериватные группы", содержащие однокоренные слова разных частей речи (ПРОИЗВОДСТВО ПРОИЗВОДИТЬ ПРОИЗВЕСТИ ПРОИЗВОДСТВЕННЫЙ ПРОИЗВОДИМЫЙ ПРОИЗВЕДЁННЫЙ и т.д.). В статическом классе Pullenti.Semantic.Utils.DerivateService есть функция FindDerivates(словоформа). Можно из одной части речи в другую, или, например, для несовершенной формы глагола получить совершенную и т.п. Группа содержит не только русские, но и украинские слова (ещё и английские, но тут качество не гарантируется). Подробности см. в документации. Сейчас в словаре около 15000 групп.
Интересно как, спасибо
источник

YS

Yaroslav Seliverstov in Natural Language Processing
Konstantin Smith
В SDK Pullenti есть так называемые "дериватные группы", содержащие однокоренные слова разных частей речи (ПРОИЗВОДСТВО ПРОИЗВОДИТЬ ПРОИЗВЕСТИ ПРОИЗВОДСТВЕННЫЙ ПРОИЗВОДИМЫЙ ПРОИЗВЕДЁННЫЙ и т.д.). В статическом классе Pullenti.Semantic.Utils.DerivateService есть функция FindDerivates(словоформа). Можно из одной части речи в другую, или, например, для несовершенной формы глагола получить совершенную и т.п. Группа содержит не только русские, но и украинские слова (ещё и английские, но тут качество не гарантируется). Подробности см. в документации. Сейчас в словаре около 15000 групп.
А ты не знаешь , есть ли там конкретно отглагольные сущ.? Типа Разрабатывать-разработка
источник

KS

Konstantin Smith in Natural Language Processing
Yaroslav Seliverstov
А ты не знаешь , есть ли там конкретно отглагольные сущ.? Типа Разрабатывать-разработка
Есть. Группа содержит список слов с частями речи, в том числе там есть и существительные, и глаголы.
источник

YB

Yuri Baburov in Natural Language Processing
Konstantin Smith
В SDK Pullenti есть так называемые "дериватные группы", содержащие однокоренные слова разных частей речи (ПРОИЗВОДСТВО ПРОИЗВОДИТЬ ПРОИЗВЕСТИ ПРОИЗВОДСТВЕННЫЙ ПРОИЗВОДИМЫЙ ПРОИЗВЕДЁННЫЙ и т.д.). В статическом классе Pullenti.Semantic.Utils.DerivateService есть функция FindDerivates(словоформа). Можно из одной части речи в другую, или, например, для несовершенной формы глагола получить совершенную и т.п. Группа содержит не только русские, но и украинские слова (ещё и английские, но тут качество не гарантируется). Подробности см. в документации. Сейчас в словаре около 15000 групп.
Konstantin, а твоя лицензия сейчас позволяет их выложить отдельно как датасет? Не все готовы подтянуть Pullenti когда им нужна только эта функциональность...
источник

KS

Konstantin Smith in Natural Language Processing
Пока не готов
источник

YB

Yuri Baburov in Natural Language Processing
Konstantin Smith
Пока не готов
ты не готов, но лицензия позволяет? если кто-нибудь это сделает, кому это нужно, то так можно?
источник

AS

Alex Surname in Natural Language Processing
Konstantin Smith
В SDK Pullenti есть так называемые "дериватные группы", содержащие однокоренные слова разных частей речи (ПРОИЗВОДСТВО ПРОИЗВОДИТЬ ПРОИЗВЕСТИ ПРОИЗВОДСТВЕННЫЙ ПРОИЗВОДИМЫЙ ПРОИЗВЕДЁННЫЙ и т.д.). В статическом классе Pullenti.Semantic.Utils.DerivateService есть функция FindDerivates(словоформа). Можно из одной части речи в другую, или, например, для несовершенной формы глагола получить совершенную и т.п. Группа содержит не только русские, но и украинские слова (ещё и английские, но тут качество не гарантируется). Подробности см. в документации. Сейчас в словаре около 15000 групп.
СДК на каком языке? межязыковый плагиат = надежда на идентичный корень в славянских языках с общей графикой?
источник

KS

Konstantin Smith in Natural Language Processing
Alex Surname
СДК на каком языке? межязыковый плагиат = надежда на идентичный корень в славянских языках с общей графикой?
SDK на 4-х языках: C#, Java, Python и javascript (см. www.pullenti.ru)
источник

AS

Alex Surname in Natural Language Processing
Konstantin Smith
SDK на 4-х языках: C#, Java, Python и javascript (см. www.pullenti.ru)
и что внутри СДК используется чтоб достать корень на англ языке? или полностью самописное?
источник

KS

Konstantin Smith in Natural Language Processing
Этот словарь формировался с 2011 года, сначала полуавтоматически, затем вручную и использовался в нескольких проектах. В частности, для сравнения диссертаций www.dissercomp.ru, который используется в основном украинскими пользователями. Это работает сейчас для русского и украинского языках, на английский не стоит здесь обращать внимание.
источник

AS

Alex Surname in Natural Language Processing
то есть вы вручную повбивали слово => корень? понятно
источник

KS

Konstantin Smith in Natural Language Processing
Alex Surname
то есть вы вручную повбивали слово => корень? понятно
Корня там явно нет, просто слова объединялись в группу. Была идея, что делать синонимию, модель управления и пр. не на уровне слов, а на уровне групп.
источник