Size: a a a

Natural Language Processing

2020 October 31

Д

Датасаенсяш... in Natural Language Processing
С тем, что из картинки тоже надо извлекать фичи и юзать их при решении задачи я согласен)
источник

SM

Sasha Marova in Natural Language Processing
Датасаенсяш
Ну во первых таким образом нам явно придется задавать маппинг сущностей какой-то. Потому что айфон он и iphone, но при этом айфон 10 != айфон 9. Поэтому при наличии датасета я бы попытался решить это мощными языковыми моделями.
А просто разбить на н- граммы, по 2,3 и проверять на полное совпадение, тогда айфон9 и айфон10 будут разными,так плохо?.правда,хуже,если в заголовке айфон 10,а в тексте  iphone 10,но можно взять какой- нибудь transliterate c pypi.Я просто хочу сказать,что к той модели которая 85% отдельно добавить такую самую простую проверку заголовка, это же не худ произведение,там не будет перефраз или синонимов,просто либо будет либо нет.
источник

Д

Датасаенсяш... in Natural Language Processing
Кажется что синонимы как раз-таки будут. Например, объявление о продаже плюшевого мишки, а в объявлении пишут про мягкого мишку.
источник

Д

Датасаенсяш... in Natural Language Processing
Как первое приближение, конечно, можно взять и такой пайплайн. Работать он правда должен хуже, чем если брать условный берт и прогонять через него.
источник

Д

Датасаенсяш... in Natural Language Processing
Я скинул статью про polyencoder, который позволяет качественно и эффективно делать скоринг между заголовком (sentence 1) и телом объявления (sentence 2). По моему его именно для таких вещей и придумали)
источник

Д

Датасаенсяш... in Natural Language Processing
Хотя в целом, по моему, тут можно взять cross-encoder, так как он будет каждую пару сравнивать один раз, и полиэнкодер не даст нам никакого прироста в скорости (зато даст более геморройный пайплайн).
источник

D

Dim in Natural Language Processing
привет всем! подскажите пожалуйста где описан класс получаемый в результате работы natasha.NamesExtractor ?
я проитерировал результаты циклом for а как дальше получить доступ к полям first last middle не понятно
вот такой код:
text = 'Иванов Дмитрий Викторович; Горелова Ольга'
matches = extractor(text)
for match in matches:
   display(match)
дает на выходе:
Match(start=0, stop=25, fact=Name(first='Дмитрий', last='Иванов', middle='Викторович'))
Match(start=27, stop=41, fact=Name(first='Ольга', last='Горелова', middle=None))
источник

D

Dim in Natural Language Processing
это на python
источник

D

Dim in Natural Language Processing
как далее объект match разложить на поля?
источник

D

Dim in Natural Language Processing
всем спасибо
print(match.fact.first)
работает
источник
2020 November 01

ZP

Z P in Natural Language Processing
Всем привет!
Возник вопрос,  существуют ли обученные рубрикаторы, которые могут классифицировать статьи на политические, религиозные и прочие темы?
источник
2020 November 02

ГС

Генрих Скретч... in Natural Language Processing
Всем привет!
Подскажите, как в yargy сделать учёт некоторого текстового мусора, чтобы при обработке правилами можно было выделять информацию ктр разрывна. Пример(то что нужно капсом и цифры):
НОМЕР БАНКОВСКОЙ КАРТЫ альфабанк платина #097644
источник

ГС

Генрих Скретч... in Natural Language Processing
Чтобы не включать то что маленькими буквами
источник

DK

Dmitry Kulikov in Natural Language Processing
Приветствую, коллеги! Нужна ваша помощь - у меня есть набор данных данных, представляющих собой обращения в корпоративную "горячую линию". Особенность в том, что обращения могут быть анонимными и гласными, то есть в некоторых сообщениях могут быть указаны контактные данные (ФИО, телефон, название организации), а в некоторых просто ФИО "посторонних" людей. Собственно мне и нужно извлечь контакты заявителя, если они в сообщении есть. Я сделал модель, которая достаточно хорошо извлекает именованные сущности (персоны, организации). Но проблема в том, как именно определить, какая из 5-6 персон, упоминаемых в сообщении, является заявителем. Например, сообщение может быть такое "Добрый день! Я Иванов Иван Иванович, работаю в ООО Ромашка. Хочу сообщить, что мой начальник Петров Петр Петрович вместе с бухгалтером ООО Василек задумали темные делишки." Попробовал уже несколько вариантов, например отдельную разметку B-APPLICANT и I-APPLICANT для фразы "Я Иванов Иван Иванович, работаю в ООО Ромашка" - результат не очень, сетка обучиться так и не смогла. Использую DeepPavlov. Подскажите, пожалуйста, идеи - уверен, что подобные задачи успешно решались. Можно просто подсказать направление куда копать:-) Крайне признателен.
источник

KS

Konstantin Smith in Natural Language Processing
Всем привет! SDK Pullenti для языка C# выложены исходные коды вместо dll-сборок, теперь всё единообразно как для Java, Python и Javascript. Для каждого из языков сделана подробная html-документация в стиле MSDN, причём удалось объединить "Program Reference" с внешним описанием типа "Program Guide". Подробности на сайте pullenti.ru и в чате @Pullenti .
источник

R

R in Natural Language Processing
Всем привет, подскажите пожалуйста, есть ли в открытом доступе парсер словаря Зализняка генерирующий все словоформы (с размеченными/обозначенными атрибутами)?
источник

YS

Yaroslav Seliverstov in Natural Language Processing
Привет! Пытаюсь подсчитать частоту совместной встречаемости слов в тексте. Посмотрите может кто встречался с чем-то подобным и подскажет как сделать? Я на стаке вопрос оформил. https://ru.stackoverflow.com/questions/1198296/Подсчёт-частоты-совместной-встречаемости-определенных-слов-в-тексте
источник

BS

Bogdan Salyp in Natural Language Processing
А почему бы не использовать готовые BLEU/ROUGE/Jaccard?
источник

YS

Yaroslav Seliverstov in Natural Language Processing
Jackard тут не подходит, как мне кажется. Вы поймёте, если посмотрите задачу.
источник

SM

Sasha Marova in Natural Language Processing
Yaroslav Seliverstov
Привет! Пытаюсь подсчитать частоту совместной встречаемости слов в тексте. Посмотрите может кто встречался с чем-то подобным и подскажет как сделать? Я на стаке вопрос оформил. https://ru.stackoverflow.com/questions/1198296/Подсчёт-частоты-совместной-встречаемости-определенных-слов-в-тексте
источник