Телеграмм чат группы natural_language

Size: a a a

Natural Language Processing

3198 membersпожаловаться на группу

2021 August 05

SМ

SancheZz Мов in Natural Language Processing

Но согласен что род лейблов в мультилейбле роляет

источник

23:17пожаловаться #1

SМ

SancheZz Мов in Natural Language Processing

Если слишком разные по домену например

источник

23:17пожаловаться #2

ЕЗ

Евгений Зубов... in Natural Language Processing

Слушайте, для тренировки ner в spacy, если я хочу извлекать числа по смыслу, то нужно размечать словосочетания "слово + число", или можно отдельно только число?

Мне нужно, анализировать отчёты государственных школ и там много много чисел.

Одно дело разметить:

Куплено 300 тон сосисок

Или отменить только:

300

Чтобы научиться извлекать количество закупленных тон сосисок?

Если размечать нужно слово + число, то важно, сколько символов между "закуплено" и "300 тон"?

Если нет, то что делать, если число 300 встречается несколько раз, но всегда оно значит количество тон сосисок?

Точность мерю F1 метрикой.

источник

23:20пожаловаться #3

2021 August 06

Sergey Sikorskiy in Natural Language Processing

@banofbot

источник

02:16пожаловаться #4

Banof in Natural Language Processing

🔫 Эдита Сидерова кикнут — вернуть этого пользователя можно только разбаном в настройках чата.

Проголосовавшие за кик:
@LoneGeek, @bazhanRO, @stan_garber, @kamane_margane, @ajtkulov
При поддержке Золота Бородача

источник

02:16пожаловаться #5

Sergey Sikorskiy in Natural Language Processing

@banofbot

источник

02:16пожаловаться #6

Banof in Natural Language Processing

🔫 Асек Анастасьева кикнут — вернуть этого пользователя можно только разбаном в настройках чата.

Проголосовавшие за кик:
@LoneGeek, @bazhanRO, @stan_garber, @ajtkulov, Wincent Balin
При поддержке Золота Бородача

источник

02:16пожаловаться #7

dePuff in Natural Language Processing

Симплификация

источник

04:28пожаловаться #8

Dmitriy in Natural Language Processing

❓Киньте плз ссылками
на решения выделения в тексте слов по списку с разными слоформами / синонимами / написания с ошибками
—
Spacy NER ??

источник

20:40пожаловаться #9

🐙

🐙 in Natural Language Processing

Ммм...
1. Исправляем пунктуацию jamspell
2. Лемматизируем pymorphy2
3. Ищем по близости эмбеддингов numpy
?

источник

21:20пожаловаться #10

🐙

🐙 in Natural Language Processing

Ну, это я в полушутку.

источник

21:21пожаловаться #11

Dmitriy in Natural Language Processing

ok)

источник

22:04пожаловаться #12

2021 August 07

Sergey Shulga in Natural Language Processing

Слушайте, есть такая задача- пользователь шлёт отдельными запросами фрагменты стихотворения (rest через телегу). Нужно понять, что за стихотворение и в какой-то итерации остановить процесс, сказать что все, мы знаем, что за стих. База стихотворений есть, они все короткие- 2-4 четверостишия. Пользователь присылает фрагменты размером в одну строку примерно. В какую сторону смотреть?

источник

13:34пожаловаться #13

Sergey Shulga in Natural Language Processing

В чем-то задача похожа на акинатор, но разница в том, что мы не ведём пользователя по вопросам, а просто принимаем входные запросы.

источник

13:35пожаловаться #14

Yuri Baburov in Natural Language Processing

Смотреть в сторону обычного словаря. Как мы узнаем, что такое слово есть? Смотрим в словаре. Как мы узнаем, что фраза есть? Смотрим в словаре. Он же поисковый индекс. Нам теперь нужно сделать индекс для строк стихотворений.

источник

13:37пожаловаться #15

Sergey Shulga in Natural Language Processing

Но одна фраза может принадлежать нескольким стихам. То есть обратным индексом мы можем получить пул кандидатов. Но их количество будет меняться от запроса к запросу.

источник

13:39пожаловаться #16

Sergey Shulga in Natural Language Processing

То есть нам нужно учитывать ранее полученные запросы, чтобы каждый раз не начинать с чистого листа

источник

13:40пожаловаться #17

Sergey Shulga in Natural Language Processing

И вот на этом месте я и завис

источник

13:41пожаловаться #18

Sergey Shulga in Natural Language Processing

Просто в одном случае уже пары строк хватит, чтобы понять. А в другом, нужно будет половину стиха дождаться.

источник

13:45пожаловаться #19

🐙

🐙 in Natural Language Processing

If (request.text in request user.request_history[-1].text) and request.user.request_history[-1].n_candidates > 1:
искать среди предыдущих кандидатов
Иначе:
Искать с нуля

Хранить серии пользоваиельских запросов в хранилище.

источник

14:02пожаловаться #20