Size: a a a

Natural Language Processing

2020 November 04

A

Ajay in Natural Language Processing
I'm will be training a dataset containing sentences (strings also contains numbers). I'm using word embedding. but for that I'll need to tokenize the words. Now, what would happen to the numbers present in the sentence? How should i  preserve them bcz after tokenization, the words will get converted into numbers and so the actual numbers and the converted numbers will have no difference. The embedding layers will convert these numbers to corresponding vectors. Can anyone tell how to prevent all this?
источник

SM

Sasha Marova in Natural Language Processing
Dmitry Kulikov
Приветствую, коллеги! Нужна ваша помощь - у меня есть набор данных данных, представляющих собой обращения в корпоративную "горячую линию". Особенность в том, что обращения могут быть анонимными и гласными, то есть в некоторых сообщениях могут быть указаны контактные данные (ФИО, телефон, название организации), а в некоторых просто ФИО "посторонних" людей. Собственно мне и нужно извлечь контакты заявителя, если они в сообщении есть. Я сделал модель, которая достаточно хорошо извлекает именованные сущности (персоны, организации). Но проблема в том, как именно определить, какая из 5-6 персон, упоминаемых в сообщении, является заявителем. Например, сообщение может быть такое "Добрый день! Я Иванов Иван Иванович, работаю в ООО Ромашка. Хочу сообщить, что мой начальник Петров Петр Петрович вместе с бухгалтером ООО Василек задумали темные делишки." Попробовал уже несколько вариантов, например отдельную разметку B-APPLICANT и I-APPLICANT для фразы "Я Иванов Иван Иванович, работаю в ООО Ромашка" - результат не очень, сетка обучиться так и не смогла. Использую DeepPavlov. Подскажите, пожалуйста, идеи - уверен, что подобные задачи успешно решались. Можно просто подсказать направление куда копать:-) Крайне признателен.
Если актуально ещё,идея просто с ифами доделать,,просто смотря по строке по глаголам,если после именованный сущности глагол в 3м лице- отметаем,в 1м - берём.pymorphy2, например,умеет смотреть формы глаголов, и,кстати,правильно понимаю,что всегда "я" будет перед ФИО,если обращение не анонимно,тогда тоже используем.так можно?
источник

EB

Evgeniy Blinov in Natural Language Processing
Sasha Marova
Если актуально ещё,идея просто с ифами доделать,,просто смотря по строке по глаголам,если после именованный сущности глагол в 3м лице- отметаем,в 1м - берём.pymorphy2, например,умеет смотреть формы глаголов, и,кстати,правильно понимаю,что всегда "я" будет перед ФИО,если обращение не анонимно,тогда тоже используем.так можно?
А есть какой-то высокоуровневый инструмент регулярок для этого? Типа часть речи из текста соответствует букве в регэкспе, какие-то доп подробности в квадратных скобках
источник

DK

Dmitry Kulikov in Natural Language Processing
Sasha Marova
Если актуально ещё,идея просто с ифами доделать,,просто смотря по строке по глаголам,если после именованный сущности глагол в 3м лице- отметаем,в 1м - берём.pymorphy2, например,умеет смотреть формы глаголов, и,кстати,правильно понимаю,что всегда "я" будет перед ФИО,если обращение не анонимно,тогда тоже используем.так можно?
Проблема в том, что вариантов обращений может быть много, например человек может представиться в конце сообщения. Например, "с уважением, Иванов Иван"
источник

SM

Sasha Marova in Natural Language Processing
Ну так это все равно,мне кажется,это конечное число возможных случаев.да и с глаголами,если только в настоящем времени,кста. ну ок,в начале после я, и в конце,а как ещё бывает? Вряд ли же посередине
источник

SM

Sasha Marova in Natural Language Processing
В любом случае,я думаю проверку на личное местоимение 1 лица во всех падежах,оно обязательно будет,если не анонимно и именн. сущность после " обокрал меня,такого- то,
источник

OS

Oleg Serikov in Natural Language Processing
ни у кого нет бота,который бы все ссылки из телеграмчата на arxiv клал в какую-то табличку?
источник

OR

Oleg Radchenko in Natural Language Processing
Oleg Serikov
ни у кого нет бота,который бы все ссылки из телеграмчата на arxiv клал в какую-то табличку?
есть парсер
источник
2020 November 05

IR

Ilya Runov in Natural Language Processing
Dmitry Kulikov
Приветствую, коллеги! Нужна ваша помощь - у меня есть набор данных данных, представляющих собой обращения в корпоративную "горячую линию". Особенность в том, что обращения могут быть анонимными и гласными, то есть в некоторых сообщениях могут быть указаны контактные данные (ФИО, телефон, название организации), а в некоторых просто ФИО "посторонних" людей. Собственно мне и нужно извлечь контакты заявителя, если они в сообщении есть. Я сделал модель, которая достаточно хорошо извлекает именованные сущности (персоны, организации). Но проблема в том, как именно определить, какая из 5-6 персон, упоминаемых в сообщении, является заявителем. Например, сообщение может быть такое "Добрый день! Я Иванов Иван Иванович, работаю в ООО Ромашка. Хочу сообщить, что мой начальник Петров Петр Петрович вместе с бухгалтером ООО Василек задумали темные делишки." Попробовал уже несколько вариантов, например отдельную разметку B-APPLICANT и I-APPLICANT для фразы "Я Иванов Иван Иванович, работаю в ООО Ромашка" - результат не очень, сетка обучиться так и не смогла. Использую DeepPavlov. Подскажите, пожалуйста, идеи - уверен, что подобные задачи успешно решались. Можно просто подсказать направление куда копать:-) Крайне признателен.
Если обращение=письмо по почте, то можно regexp выделить подпись к письму, затем в подписи найти ФИО.
источник

KS

Konstantin Smith in Natural Language Processing
Dmitry Kulikov
Приветствую, коллеги! Нужна ваша помощь - у меня есть набор данных данных, представляющих собой обращения в корпоративную "горячую линию". Особенность в том, что обращения могут быть анонимными и гласными, то есть в некоторых сообщениях могут быть указаны контактные данные (ФИО, телефон, название организации), а в некоторых просто ФИО "посторонних" людей. Собственно мне и нужно извлечь контакты заявителя, если они в сообщении есть. Я сделал модель, которая достаточно хорошо извлекает именованные сущности (персоны, организации). Но проблема в том, как именно определить, какая из 5-6 персон, упоминаемых в сообщении, является заявителем. Например, сообщение может быть такое "Добрый день! Я Иванов Иван Иванович, работаю в ООО Ромашка. Хочу сообщить, что мой начальник Петров Петр Петрович вместе с бухгалтером ООО Василек задумали темные делишки." Попробовал уже несколько вариантов, например отдельную разметку B-APPLICANT и I-APPLICANT для фразы "Я Иванов Иван Иванович, работаю в ООО Ромашка" - результат не очень, сетка обучиться так и не смогла. Использую DeepPavlov. Подскажите, пожалуйста, идеи - уверен, что подобные задачи успешно решались. Можно просто подсказать направление куда копать:-) Крайне признателен.
В Pullenti есть анализатор MailAnalyzer, который разбивает текст электронного письма на блоки (обращение, тело, подпись, внутреннее письмо как ответ), а для подписи выделяет все контактные данные, должность, организация, ФИО.
источник

Lyubov К. in Natural Language Processing
Привет! Подскажите  можно ли исправить файл инициации mystem  чтобы словари грузились не через сеть, а из локальной папки?
источник

SM

Sasha Marova in Natural Language Processing
Konstantin Smith
В Pullenti есть анализатор MailAnalyzer, который разбивает текст электронного письма на блоки (обращение, тело, подпись, внутреннее письмо как ответ), а для подписи выделяет все контактные данные, должность, организация, ФИО.
В задании не было,что это именно  электронные письма,может быть,просто форма на сайте,например.
источник

AW

Alex Wortega in Natural Language Processing
Товарищи, подскажите гайды по файнтюну ру берт под многоклассовую классификацию.
источник

SK

Sergey Karpov in Natural Language Processing
https://github.com/ThilinaRajapakse/simpletransformers вот у него есть скрипты. И можно его обертку заюзать
источник

AW

Alex Wortega in Natural Language Processing
Спасибо!
источник

OA

Oluwaseun Alagbe in Natural Language Processing
Good day everybody
I'm from Nigeria
источник

OA

Oluwaseun Alagbe in Natural Language Processing
I have a few questions to ask
источник

OA

Oluwaseun Alagbe in Natural Language Processing
Can I?
источник

AC

Anton Cherepkov in Natural Language Processing
Hello there, sure you can! 👦
источник

OA

Oluwaseun Alagbe in Natural Language Processing
I'm actually on a project,
I'm creating a virtual assistant using NLP.
I've got my model ready but would if work perfectly as planned if I deploy it on a Microcontroller?
источник