Телеграмм чат группы natural_language

С тем, что из картинки тоже надо извлекать фичи и юзать их при решении задачи я согласен)

14:19пожаловаться #1

Sasha Marova in Natural Language Processing

Датасаенсяш

Ну во первых таким образом нам явно придется задавать маппинг сущностей какой-то. Потому что айфон он и iphone, но при этом айфон 10 != айфон 9. Поэтому при наличии датасета я бы попытался решить это мощными языковыми моделями.

А просто разбить на н- граммы, по 2,3 и проверять на полное совпадение, тогда айфон9 и айфон10 будут разными,так плохо?.правда,хуже,если в заголовке айфон 10,а в тексте iphone 10,но можно взять какой- нибудь transliterate c pypi.Я просто хочу сказать,что к той модели которая 85% отдельно добавить такую самую простую проверку заголовка, это же не худ произведение,там не будет перефраз или синонимов,просто либо будет либо нет.

14:52пожаловаться #2

Кажется что синонимы как раз-таки будут. Например, объявление о продаже плюшевого мишки, а в объявлении пишут про мягкого мишку.

14:54пожаловаться #3

Как первое приближение, конечно, можно взять и такой пайплайн. Работать он правда должен хуже, чем если брать условный берт и прогонять через него.

14:55пожаловаться #4

Я скинул статью про polyencoder, который позволяет качественно и эффективно делать скоринг между заголовком (sentence 1) и телом объявления (sentence 2). По моему его именно для таких вещей и придумали)

14:59пожаловаться #5

Хотя в целом, по моему, тут можно взять cross-encoder, так как он будет каждую пару сравнивать один раз, и полиэнкодер не даст нам никакого прироста в скорости (зато даст более геморройный пайплайн).

15:01пожаловаться #6

привет всем! подскажите пожалуйста где описан класс получаемый в результате работы natasha.NamesExtractor ?
я проитерировал результаты циклом for а как дальше получить доступ к полям first last middle не понятно
вот такой код:
text = 'Иванов Дмитрий Викторович; Горелова Ольга'
matches = extractor(text)
for match in matches:
display(match)
дает на выходе:
Match(start=0, stop=25, fact=Name(first='Дмитрий', last='Иванов', middle='Викторович'))
Match(start=27, stop=41, fact=Name(first='Ольга', last='Горелова', middle=None))

18:58пожаловаться #7

это на python

18:58пожаловаться #8

как далее объект match разложить на поля?

18:59пожаловаться #9

всем спасибо
print(match.fact.first)
работает

19:07пожаловаться #10

2020 November 01

Z P in Natural Language Processing

Всем привет!
Возник вопрос, существуют ли обученные рубрикаторы, которые могут классифицировать статьи на политические, религиозные и прочие темы?

Генрих Скретч... in Natural Language Processing

17:11пожаловаться #11

2020 November 02

ГС

Всем привет!
Подскажите, как в yargy сделать учёт некоторого текстового мусора, чтобы при обработке правилами можно было выделять информацию ктр разрывна. Пример(то что нужно капсом и цифры):
НОМЕР БАНКОВСКОЙ КАРТЫ альфабанк платина #097644

Генрих Скретч... in Natural Language Processing

03:27пожаловаться #12

ГС

Чтобы не включать то что маленькими буквами

Dmitry Kulikov in Natural Language Processing

03:27пожаловаться #13

Приветствую, коллеги! Нужна ваша помощь - у меня есть набор данных данных, представляющих собой обращения в корпоративную "горячую линию". Особенность в том, что обращения могут быть анонимными и гласными, то есть в некоторых сообщениях могут быть указаны контактные данные (ФИО, телефон, название организации), а в некоторых просто ФИО "посторонних" людей. Собственно мне и нужно извлечь контакты заявителя, если они в сообщении есть. Я сделал модель, которая достаточно хорошо извлекает именованные сущности (персоны, организации). Но проблема в том, как именно определить, какая из 5-6 персон, упоминаемых в сообщении, является заявителем. Например, сообщение может быть такое "Добрый день! Я Иванов Иван Иванович, работаю в ООО Ромашка. Хочу сообщить, что мой начальник Петров Петр Петрович вместе с бухгалтером ООО Василек задумали темные делишки." Попробовал уже несколько вариантов, например отдельную разметку B-APPLICANT и I-APPLICANT для фразы "Я Иванов Иван Иванович, работаю в ООО Ромашка" - результат не очень, сетка обучиться так и не смогла. Использую DeepPavlov. Подскажите, пожалуйста, идеи - уверен, что подобные задачи успешно решались. Можно просто подсказать направление куда копать:-) Крайне признателен.

Konstantin Smith in Natural Language Processing

14:42пожаловаться #14

Всем привет! SDK Pullenti для языка C# выложены исходные коды вместо dll-сборок, теперь всё единообразно как для Java, Python и Javascript. Для каждого из языков сделана подробная html-документация в стиле MSDN, причём удалось объединить "Program Reference" с внешним описанием типа "Program Guide". Подробности на сайте pullenti.ru и в чате @Pullenti .

15:58пожаловаться #15

R in Natural Language Processing

Всем привет, подскажите пожалуйста, есть ли в открытом доступе парсер словаря Зализняка генерирующий все словоформы (с размеченными/обозначенными атрибутами)?

19:13пожаловаться #16

Yaroslav Seliverstov in Natural Language Processing

Привет! Пытаюсь подсчитать частоту совместной встречаемости слов в тексте. Посмотрите может кто встречался с чем-то подобным и подскажет как сделать? Я на стаке вопрос оформил. https://ru.stackoverflow.com/questions/1198296/Подсчёт-частоты-совместной-встречаемости-определенных-слов-в-тексте

Bogdan Salyp in Natural Language Processing

19:54пожаловаться #17

А почему бы не использовать готовые BLEU/ROUGE/Jaccard?

19:59пожаловаться #18

Yaroslav Seliverstov in Natural Language Processing

Jackard тут не подходит, как мне кажется. Вы поймёте, если посмотрите задачу.

20:13пожаловаться #19

Sasha Marova in Natural Language Processing

Yaroslav Seliverstov