Size: a a a

Natural Language Processing

2021 September 01

i

iamfina in Natural Language Processing
спасибо)
источник

P

Pi in Natural Language Processing
добрый день, даны пары вида (прилагательное, существительное), необходимо привести в соответствие существительному род прилагательного.
пример: (методический, рекомендация) -> (методическая, рекомендация)
буду рад советам в отношение инструментов для решения этой задачи. спасибо
источник

DD

David Dale in Natural Language Processing
Можно пойти по варианту pymorphy2 + правила, он самый прозрачный и надёжный.
Можно взять seq2seq нейронку типа rut5-small-normalizer и дообучить её на сгенерированном вами датасете нужного типа, но это скорее нужно для более сложных задач, где правилами не обойдёшься.
источник

SS

Sergey Sikorskiy in Natural Language Processing
1) определить род существительного
2) поставить прилагательное в этот род и именительный падеж.

pymorphy2
источник

P

Pi in Natural Language Processing
Сяп
источник

N

Natalia in Natural Language Processing
даже обсуждалась эта задача уже :)
источник

YB

Yuri Baburov in Natural Language Processing
Определяем синтаксические связи. Если связь вида "дополнение" или "обстоятельство" (родительный, винительный предложенный падеж), то не склоняешь зависимое слово. Если связь вида "определение" (согласуется по роду, числу, падежу), то склоняешь.
Говорю это потому что
"Мороженое друга" очень легко перепутать с "мороженным другом" ;)
Ну а само склонение по роду -- pymorphy2 inflect, а определение морф формы -- вон выше статья была про spacy-natasha для ударений. Техника та же.
источник

YB

Yuri Baburov in Natural Language Processing
Если про доработку spacy ru -- не идёт без меня работа, а я занят. Надо будет походить-пособирать дополнения, может кто-то что-то сделал для себя, и молчит. Пишите мне в личку в таких случаях, будем выводить это в опен-сорс.
Хотя там конечно и так неплохое качество. Но вот Трансформеры мы так и не победили, а такое ощущение, что там за день можно прикрутить какую-нибудь ruRoBERTa и получить убер-плюшку.
Ну а если про самостоятельную разработку -- берешь репозиторий Natasha-spacy и модифицируешь оттуда пайплайн как тебе надо.
источник

🐙

🐙 in Natural Language Processing
Всем привет! Делаю Entity Linking,  и мне нужно по тексту разметить спаны и каждому привязать некоторый тег (не NER!, много кастомных тегов!). Сейчас пытаюсь поковырять конфиг LabelStudio, но, судя по всему, там такой функциональности нет - нахожу либо простой labeling, либо одно кастомное поле, а мне надо под каждый label такое поле.
1. Можно ли такое намутить через LabelStudio?
2. Есть ли аналогичные инструменты, которые при этом не Prodigy?
источник

DD

David Dale in Natural Language Processing
@niklub, призываю тебя по пункту (1)
источник

DG

Denis Gordeev in Natural Language Processing
источник

t

tlack in Natural Language Processing
Hello all. I am a practitioner from Miami, FL. Are English questions OK here?

Does it make sense to retrain a text embedding model (like nli-distilroberta) to handle typos?

I can obviously generate a corpus of my original query plus versions of the same text with typos added.

But thats obviously an unlimited number of possible permutations - when do I stop?



Всем здравствуйте. Я практикующий из Майами, Флорида. Здесь можно задать вопросы на английском?

Имеет ли смысл переобучать модель встраивания текста (например, nli-distilroberta) для обработки опечаток?

Очевидно, я могу сгенерировать корпус моего исходного запроса плюс версии того же текста с добавленными опечатками.

Но это, очевидно, неограниченное количество возможных перестановок - когда мне остановиться?
источник

🐙

🐙 in Natural Language Processing
Ага, вроде он делает то, что нужно. Спасибо 👍🏿
источник

A

Alexander in Natural Language Processing
Коллеги, какие у нас есть методы для суммаризации текста? Я использовал TextRank, знаю что можно помучиться с  Deep Learning или Bert. А какие еще есть варинаты?
источник

DD

David Dale in Natural Language Processing
погляди https://github.com/IlyaGusev/summarus, там и мини-обзор, и датасеты, и обученные модели для русского
источник

A

Alexander in Natural Language Processing
Благодарю! 🤗
источник

N

Nikolai in Natural Language Processing
Привет. Может, подойдет что-то в таком стиле? https://labelstud.io/playground/?config=%3CView%20style%3D%22display%3A%20flex%3B%22%3E%3Cbr%3E%20%20%3CView%20style%3D%22width%3A%20150px%3B%20padding-left%3A%202em%3B%20margin-right%3A%202em%3B%20background%3A%20%23f1f1f1%3B%20border-radius%3A%203px%22%3E%3Cbr%3E%20%20%20%20%3CLabels%20name%3D%22ner%22%20toName%3D%22text%22%3E%3Cbr%3E%20%20%20%20%20%20%3CLabel%20value%3D%22Person%22%20%2F%3E%3Cbr%3E%20%20%20%20%20%20%3CLabel%20value%3D%22Organization%22%20%2F%3E%3Cbr%3E%20%20%20%20%3C%2FLabels%3E%3Cbr%3E%20%20%3C%2FView%3E%3Cbr%3E%3Cbr%3E%20%20%3CView%3E%3Cbr%3E%20%20%20%20%3CView%20style%3D%22height%3A%20200px%3B%20overflow-y%3A%20auto%22%3E%3Cbr%3E%20%20%20%20%20%20%3CText%20name%3D%22text%22%20value%3D%22%24text%22%20%2F%3E%3Cbr%3E%20%20%20%20%3C%2FView%3E%3Cbr%3E%3Cbr%3E%20%20%20%20%3CView%3E%3Cbr%3E%20%20%20%20%20%20%3CChoices%20name%3D%22relevance%22%20toName%3D%22text%22%20perRegion%3D%22true%22%3E%3Cbr%3E%20%20%20%20%20%20%09%3CChoice%20value%3D%22Relevant%22%20%2F%3E%3Cbr%3E%20%20%20%20%20%20%20%20%3CChoice%20value%3D%22Non%20Relevant%22%20%2F%3E%3Cbr%3E%20%20%20%20%20%20%3C%2FChoices%3E%3Cbr%3E%3Cbr%3E%20%20%20%20%20%20%3CView%20visibleWhen%3D%22region-selected%22%3E%3Cbr%3E%20%20%20%20%20%20%09%3CHeader%20value%3D%22Your%20confidence%22%20%2F%3E%3Cbr%3E%20%20%20%20%20%20%3C%2FView%3E%3Cbr%3E%20%20%20%20%20%20%3CRating%20name%3D%22confidence%22%20toName%3D%22text%22%20perRegion%3D%22true%22%20%2F%3E%3Cbr%3E%20%20%20%20%3C%2FView%3E%3Cbr%3E%3Cbr%3E%20%20%20%20%3CView%20style%3D%22width%3A%20100%25%3B%20display%3A%20block%22%3E%3Cbr%3E%20%20%20%20%20%20%3CHeader%20value%3D%22Select%20span%20after%20creation%20to%20go%20next%22%2F%3E%3Cbr%3E%20%20%20%20%3C%2FView%3E%3Cbr%3E%20%20%3C%2FView%3E%3Cbr%3E%3Cbr%3E%3C%2FView%3E%3Cbr%3E
источник

🐙

🐙 in Natural Language Processing
Я попробовал, поменял Rating на TextArea, и вышло похоже, спасибо 👍🏿.  Три вопроса:
1. Там получается мой Label и TextArea в результатах как равноправные ответы, и результат выглядит как на картинке. Я могу такое сматчить, но нет ли варианта в один ответ это внести?
2. Я сейчас предсказанные теги свернул в одну строку и показываю как ещё один текст, и ручками копирую. Нельзя ли сделать значения Choices или чего похожего с кастомными значениями, чтоб я просто выбирал готовое? (у меня есть список предполагаемых тегов для документа, но не на 100% достоверный)
3. Если я отформатирую свои входные данные как результат LabelStudio, подтянутся ли результаты в редактор как размеченное? Или это копать в сторону интеграции с МЛ алгоритмом?
источник

ЛВ

Леха Великолепный... in Natural Language Processing
Может кто подсказать решение для автотегирования русских текстов?
источник

N

Nikolai in Natural Language Processing
1. у них одинаковое поле "id" можно матчить по нему
2. а почему собственно <Choices> не подходят?
3. да, можно просто загрузить обратно такие же данные, вот тут больше есть инфы про форматы https://labelstud.io/guide/predictions.html
источник