Size: a a a

Natural Language Processing

2020 October 14

D

Dosya in Natural Language Processing
Всем привет !

Я занимаюсь поиском ответов в одном большом документе. Таких документов много и они разные по содержанию, поэтому модель строю универсальную.  Использую sentence bert, чтобы сделать репрезентацию для документа (делю документ на предложения и делаю из них embeddings).  Далее использую cosine similarity чтобы найти одинаковые по контексту предложения. В прицепе результаты хорошие есть, но во всех случаях.
1) Поиск ведётся относительно одного предложения, без учёта контекста.
2)Так же в случаях, когда нужное предложение в документе намного больше запроса, то получается маленький similarity между ними и результат не выходит в топ 10 или даже в топ 20.

Что можете сказать насчёт используемого подхода и какие пути решения можно будет использовать в таком случае? Буду очень благодарен за ваши комментарии.
источник

DD

David Dale in Natural Language Processing
Dosya
Всем привет !

Я занимаюсь поиском ответов в одном большом документе. Таких документов много и они разные по содержанию, поэтому модель строю универсальную.  Использую sentence bert, чтобы сделать репрезентацию для документа (делю документ на предложения и делаю из них embeddings).  Далее использую cosine similarity чтобы найти одинаковые по контексту предложения. В прицепе результаты хорошие есть, но во всех случаях.
1) Поиск ведётся относительно одного предложения, без учёта контекста.
2)Так же в случаях, когда нужное предложение в документе намного больше запроса, то получается маленький similarity между ними и результат не выходит в топ 10 или даже в топ 20.

Что можете сказать насчёт используемого подхода и какие пути решения можно будет использовать в таком случае? Буду очень благодарен за ваши комментарии.
Случай (2) я решил костылём: длинные предложения я разбиваю на чанки покороче (эвристиками над результатом синтаксического парсера), и их уже превращаю в эмбеддинги.
источник

D

Dosya in Natural Language Processing
David Dale
Случай (2) я решил костылём: длинные предложения я разбиваю на чанки покороче (эвристиками над результатом синтаксического парсера), и их уже превращаю в эмбеддинги.
Спасибо, я тоже над этим думал
источник

a

arina in Natural Language Processing
Добрый день! Подскажите, существует ли готовое NER-решение для поиска в тексте телефонных номеров? Спасибо)
источник

М

Марк in Natural Language Processing
arina
Добрый день! Подскажите, существует ли готовое NER-решение для поиска в тексте телефонных номеров? Спасибо)
\b\+?[7,8](\s*\d{3}\s*\d{3}\s*\d{2}\s*\d{2})\b
источник

v

vlad in Natural Language Processing
))
источник

OS

Oleg Serikov in Natural Language Processing
вангую, что готовое решение будет ещё угадывать страну и оператора🤖
источник

➔m

➔◾ maria myznikova... in Natural Language Processing
Переслано от Alexander Kukushkin
Для извлечения телефон лучше использовать библиотеку https://github.com/daviddrysdale/python-phonenumbers
источник

M

M&M in Natural Language Processing
она вроде не извлекает телефоны, а проверяет строку на номер/не номер
источник

a

arina in Natural Language Processing
спасибо большое 🙌🏻
источник

A

Alex in Natural Language Processing
Добрый вечер, подскажите, есть ли готовые решения  для извлечения из текстов таких характеристик, как различные физические величины: размеры, сила тока, напряжение, давление, объём и т.п.?
источник

SD

Sergey Dulikov in Natural Language Processing
регулярки
источник

A

Alex in Natural Language Processing
Уже начал с них, думал вдруг что ещё есть
источник

ДС

Дмитрий Симаков... in Natural Language Processing
Можно NER, но есть ли датасет.
источник

A

Alex in Natural Language Processing
Датасет относительно небольшой 300к строк с записями, каждая строка не больше 400 символов.
источник
2020 October 15

L

Lukos in Natural Language Processing
Всем привет. Подскажите, пожалуйста, каким образом можно извлекать из текста различных технологий на русском языке? Наташа и пулентий не решают эту проблему. Куда рыть?
источник

AP

Alex Peresmeshnik in Natural Language Processing
Lukos
Всем привет. Подскажите, пожалуйста, каким образом можно извлекать из текста различных технологий на русском языке? Наташа и пулентий не решают эту проблему. Куда рыть?
извлекать из текста различных технологий на русском языке?
источник

L

Lukos in Natural Language Processing
Ну, к примеру:
Для добычи нефти используется гидроразрыв пласта. Метод заключается в создании высокопроводимых трещин в целевом пласте.

В данном случае, мне отсюда надо извлечь гидроразрыв пласта. В другом тексте, это может быть что-то другое
источник

YB

Yuri Baburov in Natural Language Processing
Lukos
Ну, к примеру:
Для добычи нефти используется гидроразрыв пласта. Метод заключается в создании высокопроводимых трещин в целевом пласте.

В данном случае, мне отсюда надо извлечь гидроразрыв пласта. В другом тексте, это может быть что-то другое
Spacy noun_chunks или вручную аналогичное делать по дереву синтаксического анализа. Yargy вроде умеет в общем виде такие паттерны тоже задавать.
А потом фильтруете по вашему словарю терминов или по векторам отсеиваете фразы только из нужной темы. Ну и ещё можно по PMI пофильтровать (хотя и ненадёжно работает), чтобы отличить многословные термины от просто нескольких слов, стоящих рядом. Если всё это не поможет, придётся учить вашу модель.
источник

A

Aliaksandr in Natural Language Processing
Alex Peresmeshnik
извлекать из текста различных технологий на русском языке?
и эти люди пытаются работать с текстами...
источник