Size: a a a

Natural Language Processing

2020 October 08

P

Pavel in Natural Language Processing
Yuri Baburov
nerus — это датасет. компоненты natasha, которые вам могут подойти: slovnet и yargy.
Спасибо, впервые подошёл к такой задаче.
источник

Р

Ромаша in Natural Language Processing
Pavel
Приветствую! Если стоит задача из текстов выбирать все ФИО и представлять в именительном падеже, то использовать следует библиотеку Natasha или Nerus?
Pullenti+pymorphy
источник

A

Artem in Natural Language Processing
Всем доброй ночи
источник

A

Artem in Natural Language Processing
Буду рад, если поможите направить на путь истинный
источник

A

Artem in Natural Language Processing
Такая проблема, не могу составить алгоритм сортировки. Суть такова. Есть набор ключевых слов и мне их нужно разбить по группам. Проблема в том, что у этих ключевых слов чаще всего есть общие значения, по которым сортировать нельзя, так как все будет в одной группе.
Если брать по похожим строкам, то нужно вносить исключения в алгоритм, что так себе идея, так как нужно делать лишние действия. Сегодня находил вебсервис, который позволяет это реализовать, ноо, там есть определенное ограничение по кол.ву строк, что мне не подходит.
У нас есть например 100 ключевых слов, в которых есть слово "купить" но с этим словом есть и другие слова, которые могут отвечать за х-ку, и что-то еще. Таких слов в наборе может быть неизвестно сколько. Мне нужен алгоритм, который будет сортировать эти слова не по слову "купить", а по их х-ке, но х-ки, заранее неизвестны.

Пример сервиса
https://miratext.ru/clustering_keywords
источник

A

Artem in Natural Language Processing
Пример того, как сортируются слова. Это гр-1
источник

A

Artem in Natural Language Processing
Это гр -2
источник

A

Artem in Natural Language Processing
и еще распределение по группам
источник

A

Artem in Natural Language Processing
Объясните пожалуйста в какую сторону копать, мне кажется можно это реализовать через банальный алгоритм сортировки, ноооо, закрадываются жуткие сомнения
источник

A

Artem in Natural Language Processing
Заранее спасибо
источник
2020 October 09

YB

Yuri Baburov in Natural Language Processing
Artem
Такая проблема, не могу составить алгоритм сортировки. Суть такова. Есть набор ключевых слов и мне их нужно разбить по группам. Проблема в том, что у этих ключевых слов чаще всего есть общие значения, по которым сортировать нельзя, так как все будет в одной группе.
Если брать по похожим строкам, то нужно вносить исключения в алгоритм, что так себе идея, так как нужно делать лишние действия. Сегодня находил вебсервис, который позволяет это реализовать, ноо, там есть определенное ограничение по кол.ву строк, что мне не подходит.
У нас есть например 100 ключевых слов, в которых есть слово "купить" но с этим словом есть и другие слова, которые могут отвечать за х-ку, и что-то еще. Таких слов в наборе может быть неизвестно сколько. Мне нужен алгоритм, который будет сортировать эти слова не по слову "купить", а по их х-ке, но х-ки, заранее неизвестны.

Пример сервиса
https://miratext.ru/clustering_keywords
если я правильно понял,
это не сортировка. это какая-то кластеризация (возможно, с пересечениями).
ну, скажем, находи популярные слова (или популярные префиксы).
по этим словам делай кластера.
тогда, при выводе кластера ты уже знаешь, какое слово у тебя является ключевым словом кластера, и выводишь связанные с ним другие слова.
источник

М

Марк in Natural Language Processing
Artem
Такая проблема, не могу составить алгоритм сортировки. Суть такова. Есть набор ключевых слов и мне их нужно разбить по группам. Проблема в том, что у этих ключевых слов чаще всего есть общие значения, по которым сортировать нельзя, так как все будет в одной группе.
Если брать по похожим строкам, то нужно вносить исключения в алгоритм, что так себе идея, так как нужно делать лишние действия. Сегодня находил вебсервис, который позволяет это реализовать, ноо, там есть определенное ограничение по кол.ву строк, что мне не подходит.
У нас есть например 100 ключевых слов, в которых есть слово "купить" но с этим словом есть и другие слова, которые могут отвечать за х-ку, и что-то еще. Таких слов в наборе может быть неизвестно сколько. Мне нужен алгоритм, который будет сортировать эти слова не по слову "купить", а по их х-ке, но х-ки, заранее неизвестны.

Пример сервиса
https://miratext.ru/clustering_keywords
Даже в названии сервиса написано, что это задача кластеризации. 😉 Возьми контекстуально зависимые эмбединги и попробуй покластеризовать. Если колличество кластеров заранее известно возьми к-nn за бэйзлайн. Если не известно, то hdbscan.
источник

SS

Sergey Shulga in Natural Language Processing
Народ, где можно взять частотный словарь русского языка максимально полный? Мне нужен простой txt-формат вида "слово-частота". Есть какие-то готовые?
источник

SS

Sergey Shulga in Natural Language Processing
Основной, как я понимаю, тот который на основе НКРЯ от 2011 года?
источник

SK

Sasha Korovii in Natural Language Processing
Можете кто-то знает открытий датасет для sentimental analysis, интересует украинский или русский языки.
источник

A

Artem in Natural Language Processing
Спасибо за советы,  буду пробовать
источник

A

Ajay in Natural Language Processing
I have medical data prescription- take 2 pills every day,
take 1 1/2 tablets 2 times every month", "take 1.5 tablets for the next 10 days,
take 1 & 1/2 (one & one-half) tablets by mouth once daily
источник

A

Ajay in Natural Language Processing
I want to extract the no. of tablets to be taken(the no. written before`pills`, tablets)
How to do that?
источник

A

Ajay in Natural Language Processing
Don't want to hard code it.
источник

M

Mairna in Natural Language Processing
Ajay
Don't want to hard code it.
I think the best is just to hard code it to be honest
источник