Телеграмм чат группы natural_language

2020 October 08

P

Pavel in Natural Language Processing

Yuri Baburov

nerus — это датасет. компоненты natasha, которые вам могут подойти: slovnet и yargy.

Спасибо, впервые подошёл к такой задаче.

источник

21:47пожаловаться #1

Р

Ромаша in Natural Language Processing

Pavel

Приветствую! Если стоит задача из текстов выбирать все ФИО и представлять в именительном падеже, то использовать следует библиотеку Natasha или Nerus?

Pullenti+pymorphy

источник

21:51пожаловаться #2

A

Artem in Natural Language Processing

Всем доброй ночи

источник

22:54пожаловаться #3

A

Artem in Natural Language Processing

Буду рад, если поможите направить на путь истинный

источник

22:54пожаловаться #4

A

Artem in Natural Language Processing

Такая проблема, не могу составить алгоритм сортировки. Суть такова. Есть набор ключевых слов и мне их нужно разбить по группам. Проблема в том, что у этих ключевых слов чаще всего есть общие значения, по которым сортировать нельзя, так как все будет в одной группе.
Если брать по похожим строкам, то нужно вносить исключения в алгоритм, что так себе идея, так как нужно делать лишние действия. Сегодня находил вебсервис, который позволяет это реализовать, ноо, там есть определенное ограничение по кол.ву строк, что мне не подходит.
У нас есть например 100 ключевых слов, в которых есть слово "купить" но с этим словом есть и другие слова, которые могут отвечать за х-ку, и что-то еще. Таких слов в наборе может быть неизвестно сколько. Мне нужен алгоритм, который будет сортировать эти слова не по слову "купить", а по их х-ке, но х-ки, заранее неизвестны.

Пример сервиса
https://miratext.ru/clustering_keywords

miratext.ru

Анализ и распределение ключевых слов по группам

Автоматическая кластеризация с фильтрацией запросов для ТЗ копирайтеру

источник

22:59пожаловаться #5

A

Artem in Natural Language Processing

Пример того, как сортируются слова. Это гр-1

источник

22:59пожаловаться #6

A

Artem in Natural Language Processing

Это гр -2

источник

22:59пожаловаться #7

A

Artem in Natural Language Processing

и еще распределение по группам

источник

23:00пожаловаться #8

A

Artem in Natural Language Processing

Объясните пожалуйста в какую сторону копать, мне кажется можно это реализовать через банальный алгоритм сортировки, ноооо, закрадываются жуткие сомнения

источник

23:01пожаловаться #9

A

Artem in Natural Language Processing

Заранее спасибо

источник

23:01пожаловаться #10

2020 October 09

YB

Yuri Baburov in Natural Language Processing

Artem

Такая проблема, не могу составить алгоритм сортировки. Суть такова. Есть набор ключевых слов и мне их нужно разбить по группам. Проблема в том, что у этих ключевых слов чаще всего есть общие значения, по которым сортировать нельзя, так как все будет в одной группе.
Если брать по похожим строкам, то нужно вносить исключения в алгоритм, что так себе идея, так как нужно делать лишние действия. Сегодня находил вебсервис, который позволяет это реализовать, ноо, там есть определенное ограничение по кол.ву строк, что мне не подходит.
У нас есть например 100 ключевых слов, в которых есть слово "купить" но с этим словом есть и другие слова, которые могут отвечать за х-ку, и что-то еще. Таких слов в наборе может быть неизвестно сколько. Мне нужен алгоритм, который будет сортировать эти слова не по слову "купить", а по их х-ке, но х-ки, заранее неизвестны.

Пример сервиса
https://miratext.ru/clustering_keywords

miratext.ru

Анализ и распределение ключевых слов по группам

Автоматическая кластеризация с фильтрацией запросов для ТЗ копирайтеру

если я правильно понял,
это не сортировка. это какая-то кластеризация (возможно, с пересечениями).
ну, скажем, находи популярные слова (или популярные префиксы).
по этим словам делай кластера.
тогда, при выводе кластера ты уже знаешь, какое слово у тебя является ключевым словом кластера, и выводишь связанные с ним другие слова.

источник

06:51пожаловаться #11

М

Марк in Natural Language Processing

Artem

Такая проблема, не могу составить алгоритм сортировки. Суть такова. Есть набор ключевых слов и мне их нужно разбить по группам. Проблема в том, что у этих ключевых слов чаще всего есть общие значения, по которым сортировать нельзя, так как все будет в одной группе.
Если брать по похожим строкам, то нужно вносить исключения в алгоритм, что так себе идея, так как нужно делать лишние действия. Сегодня находил вебсервис, который позволяет это реализовать, ноо, там есть определенное ограничение по кол.ву строк, что мне не подходит.
У нас есть например 100 ключевых слов, в которых есть слово "купить" но с этим словом есть и другие слова, которые могут отвечать за х-ку, и что-то еще. Таких слов в наборе может быть неизвестно сколько. Мне нужен алгоритм, который будет сортировать эти слова не по слову "купить", а по их х-ке, но х-ки, заранее неизвестны.

Пример сервиса
https://miratext.ru/clustering_keywords

miratext.ru

Анализ и распределение ключевых слов по группам

Автоматическая кластеризация с фильтрацией запросов для ТЗ копирайтеру

Даже в названии сервиса написано, что это задача кластеризации. 😉 Возьми контекстуально зависимые эмбединги и попробуй покластеризовать. Если колличество кластеров заранее известно возьми к-nn за бэйзлайн. Если не известно, то hdbscan.

источник

08:24пожаловаться #12

SS

Sergey Shulga in Natural Language Processing

Народ, где можно взять частотный словарь русского языка максимально полный? Мне нужен простой txt-формат вида "слово-частота". Есть какие-то готовые?

источник

09:12пожаловаться #13

SS

Sergey Shulga in Natural Language Processing

Основной, как я понимаю, тот который на основе НКРЯ от 2011 года?

источник

09:24пожаловаться #14

SK

Sasha Korovii in Natural Language Processing

Можете кто-то знает открытий датасет для sentimental analysis, интересует украинский или русский языки.

источник

09:50пожаловаться #15

A

Artem in Natural Language Processing

Спасибо за советы, буду пробовать

источник

09:52пожаловаться #16

A

Ajay in Natural Language Processing

I have medical data prescription- take 2 pills every day,
take 1 1/2 tablets 2 times every month", "take 1.5 tablets for the next 10 days,
take 1 & 1/2 (one & one-half) tablets by mouth once daily

источник

13:35пожаловаться #17

A

Ajay in Natural Language Processing

I want to extract the no. of tablets to be taken(the no. written before`pills`, tablets)
How to do that?

источник

13:36пожаловаться #18

A

Ajay in Natural Language Processing

Don't want to hard code it.

источник

13:51пожаловаться #19