Size: a a a

Natural Language Processing

2021 August 05

SancheZz Мов in Natural Language Processing
Но согласен что род лейблов в мультилейбле роляет
источник

SancheZz Мов in Natural Language Processing
Если слишком разные по домену например
источник

ЕЗ

Евгений Зубов... in Natural Language Processing
Слушайте, для тренировки ner в spacy, если я хочу извлекать числа по смыслу, то нужно размечать словосочетания "слово + число", или можно отдельно только число?

Мне нужно, анализировать отчёты государственных школ и там много много чисел.

Одно дело разметить:

Куплено 300 тон сосисок

Или отменить только:

300

Чтобы научиться извлекать количество закупленных тон сосисок?

Если размечать нужно слово + число, то важно, сколько символов между "закуплено" и "300 тон"?

Если нет, то что делать, если число 300 встречается несколько раз, но всегда оно значит количество тон сосисок?

Точность мерю F1 метрикой.
источник
2021 August 06

SS

Sergey Sikorskiy in Natural Language Processing
источник

B

Banof in Natural Language Processing
🔫 Эдита Сидерова кикнут — вернуть этого пользователя можно только разбаном в настройках чата.

Проголосовавшие за кик:
@LoneGeek, @bazhanRO, @stan_garber, @kamane_margane, @ajtkulov
При поддержке Золота Бородача
источник

SS

Sergey Sikorskiy in Natural Language Processing
источник

B

Banof in Natural Language Processing
🔫 Асек Анастасьева кикнут — вернуть этого пользователя можно только разбаном в настройках чата.

Проголосовавшие за кик:
@LoneGeek, @bazhanRO, @stan_garber, @ajtkulov, Wincent Balin
При поддержке Золота Бородача
источник

d

dePuff in Natural Language Processing
Симплификация
источник

D

Dmitriy in Natural Language Processing
❓Киньте плз ссылками
на решения выделения в тексте слов по списку    с разными слоформами  / синонимами /  написания с ошибками  

Spacy  NER ??
источник

🐙

🐙 in Natural Language Processing
Ммм...
1. Исправляем пунктуацию jamspell
2. Лемматизируем pymorphy2
3. Ищем по близости эмбеддингов numpy
?
источник

🐙

🐙 in Natural Language Processing
Ну, это я в полушутку.
источник

D

Dmitriy in Natural Language Processing
ok)
источник
2021 August 07

SS

Sergey Shulga in Natural Language Processing
Слушайте, есть такая задача- пользователь шлёт отдельными запросами фрагменты стихотворения (rest через телегу). Нужно понять, что за стихотворение и в какой-то итерации остановить процесс, сказать что все, мы знаем, что за стих. База стихотворений есть, они все короткие- 2-4 четверостишия. Пользователь присылает фрагменты размером в одну строку примерно. В какую сторону смотреть?
источник

SS

Sergey Shulga in Natural Language Processing
В чем-то задача похожа на акинатор, но разница в том, что мы не ведём пользователя по вопросам, а просто принимаем входные запросы.
источник

YB

Yuri Baburov in Natural Language Processing
Смотреть в сторону обычного словаря. Как мы узнаем, что такое слово есть? Смотрим в словаре. Как мы узнаем, что фраза есть? Смотрим в словаре. Он же поисковый индекс. Нам теперь нужно сделать индекс для строк стихотворений.
источник

SS

Sergey Shulga in Natural Language Processing
Но одна фраза может принадлежать нескольким стихам. То есть обратным индексом мы можем получить пул кандидатов. Но их количество будет меняться от запроса к запросу.
источник

SS

Sergey Shulga in Natural Language Processing
То есть нам нужно учитывать ранее полученные запросы, чтобы каждый раз не начинать с чистого листа
источник

SS

Sergey Shulga in Natural Language Processing
И вот на этом месте я и завис
источник

SS

Sergey Shulga in Natural Language Processing
Просто в одном случае уже пары строк хватит, чтобы понять. А в другом, нужно будет половину стиха дождаться.
источник

🐙

🐙 in Natural Language Processing
If (request.text in request user.request_history[-1].text) and  request.user.request_history[-1].n_candidates > 1:
   искать среди предыдущих кандидатов
Иначе:
   Искать с нуля

Хранить серии пользоваиельских запросов в хранилище.
источник