Телеграмм чат группы natural_language_processing страница 867

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Natural Language Processing

2186 membersпожаловаться на группу

2020 October 14

D

Dosya in Natural Language Processing

Всем привет !

Я занимаюсь поиском ответов в одном большом документе. Таких документов много и они разные по содержанию, поэтому модель строю универсальную. Использую sentence bert, чтобы сделать репрезентацию для документа (делю документ на предложения и делаю из них embeddings). Далее использую cosine similarity чтобы найти одинаковые по контексту предложения. В прицепе результаты хорошие есть, но во всех случаях.
1) Поиск ведётся относительно одного предложения, без учёта контекста.
2)Так же в случаях, когда нужное предложение в документе намного больше запроса, то получается маленький similarity между ними и результат не выходит в топ 10 или даже в топ 20.

Что можете сказать насчёт используемого подхода и какие пути решения можно будет использовать в таком случае? Буду очень благодарен за ваши комментарии.

источник

06:08пожаловаться #1

DD

David Dale in Natural Language Processing

Всем привет !

Я занимаюсь поиском ответов в одном большом документе. Таких документов много и они разные по содержанию, поэтому модель строю универсальную. Использую sentence bert, чтобы сделать репрезентацию для документа (делю документ на предложения и делаю из них embeddings). Далее использую cosine similarity чтобы найти одинаковые по контексту предложения. В прицепе результаты хорошие есть, но во всех случаях.
1) Поиск ведётся относительно одного предложения, без учёта контекста.
2)Так же в случаях, когда нужное предложение в документе намного больше запроса, то получается маленький similarity между ними и результат не выходит в топ 10 или даже в топ 20.

Что можете сказать насчёт используемого подхода и какие пути решения можно будет использовать в таком случае? Буду очень благодарен за ваши комментарии.

Случай (2) я решил костылём: длинные предложения я разбиваю на чанки покороче (эвристиками над результатом синтаксического парсера), и их уже превращаю в эмбеддинги.

источник

07:31пожаловаться #2

D

Dosya in Natural Language Processing

Случай (2) я решил костылём: длинные предложения я разбиваю на чанки покороче (эвристиками над результатом синтаксического парсера), и их уже превращаю в эмбеддинги.

Спасибо, я тоже над этим думал

источник

07:43пожаловаться #3

a

arina in Natural Language Processing

Добрый день! Подскажите, существует ли готовое NER-решение для поиска в тексте телефонных номеров? Спасибо)

источник

16:43пожаловаться #4

М

Марк in Natural Language Processing

Добрый день! Подскажите, существует ли готовое NER-решение для поиска в тексте телефонных номеров? Спасибо)

\b\+?[7,8](\s*\d{3}\s*\d{3}\s*\d{2}\s*\d{2})\b

источник

16:45пожаловаться #5

v

vlad in Natural Language Processing

))

источник

16:45пожаловаться #6

OS

Oleg Serikov in Natural Language Processing

вангую, что готовое решение будет ещё угадывать страну и оператора🤖

источник

16:46пожаловаться #7

➔m

➔◾ maria myznikova... in Natural Language Processing

Переслано от Alexander Kukushkin

Для извлечения телефон лучше использовать библиотеку https://github.com/daviddrysdale/python-phonenumbers

daviddrysdale/python-phonenumbers

Python port of Google's libphonenumber. Contribute to daviddrysdale/python-phonenumbers development by creating an account on GitHub.

источник

16:47пожаловаться #8

M

M&M in Natural Language Processing

➔◾ maria myznikova

Переслано от Alexander Kukushkin

Для извлечения телефон лучше использовать библиотеку https://github.com/daviddrysdale/python-phonenumbers

daviddrysdale/python-phonenumbers

Python port of Google's libphonenumber. Contribute to daviddrysdale/python-phonenumbers development by creating an account on GitHub.

она вроде не извлекает телефоны, а проверяет строку на номер/не номер

источник

17:41пожаловаться #9

a

arina in Natural Language Processing

➔◾ maria myznikova

Переслано от Alexander Kukushkin

Для извлечения телефон лучше использовать библиотеку https://github.com/daviddrysdale/python-phonenumbers

daviddrysdale/python-phonenumbers

Python port of Google's libphonenumber. Contribute to daviddrysdale/python-phonenumbers development by creating an account on GitHub.

спасибо большое 🙌🏻

источник

18:58пожаловаться #10

A

Alex in Natural Language Processing

Добрый вечер, подскажите, есть ли готовые решения для извлечения из текстов таких характеристик, как различные физические величины: размеры, сила тока, напряжение, давление, объём и т.п.?

источник

22:01пожаловаться #11

SD

Sergey Dulikov in Natural Language Processing

регулярки

источник

22:04пожаловаться #12

A

Alex in Natural Language Processing

Уже начал с них, думал вдруг что ещё есть

источник

22:13пожаловаться #13

ДС

Дмитрий Симаков... in Natural Language Processing

Можно NER, но есть ли датасет.

источник

22:14пожаловаться #14

A

Alex in Natural Language Processing

Датасет относительно небольшой 300к строк с записями, каждая строка не больше 400 символов.

источник

22:23пожаловаться #15

2020 October 15

L

Lukos in Natural Language Processing

Всем привет. Подскажите, пожалуйста, каким образом можно извлекать из текста различных технологий на русском языке? Наташа и пулентий не решают эту проблему. Куда рыть?

источник

01:11пожаловаться #16

AP

Alex Peresmeshnik in Natural Language Processing

Всем привет. Подскажите, пожалуйста, каким образом можно извлекать из текста различных технологий на русском языке? Наташа и пулентий не решают эту проблему. Куда рыть?

извлекать из текста различных технологий на русском языке?

источник

01:36пожаловаться #17

L

Lukos in Natural Language Processing

Ну, к примеру:
Для добычи нефти используется гидроразрыв пласта. Метод заключается в создании высокопроводимых трещин в целевом пласте.

В данном случае, мне отсюда надо извлечь гидроразрыв пласта. В другом тексте, это может быть что-то другое

источник

01:41пожаловаться #18

YB

Yuri Baburov in Natural Language Processing

Ну, к примеру:
Для добычи нефти используется гидроразрыв пласта. Метод заключается в создании высокопроводимых трещин в целевом пласте.

В данном случае, мне отсюда надо извлечь гидроразрыв пласта. В другом тексте, это может быть что-то другое

Spacy noun_chunks или вручную аналогичное делать по дереву синтаксического анализа. Yargy вроде умеет в общем виде такие паттерны тоже задавать.
А потом фильтруете по вашему словарю терминов или по векторам отсеиваете фразы только из нужной темы. Ну и ещё можно по PMI пофильтровать (хотя и ненадёжно работает), чтобы отличить многословные термины от просто нескольких слов, стоящих рядом. Если всё это не поможет, придётся учить вашу модель.

источник

03:55пожаловаться #19

A

Aliaksandr in Natural Language Processing

Alex Peresmeshnik

извлекать из текста различных технологий на русском языке?

и эти люди пытаются работать с текстами...

источник

07:56пожаловаться #20