Size: a a a

Natural Language Processing

2021 August 24

N

Natalia in Natural Language Processing
я не знаю, сработает ли этот:
https://github.com/kmike/russian-tagsets
источник

N

Natalia in Natural Language Processing
источник

N

Natalia in Natural Language Processing
источник

A

Andrey in Natural Language Processing
Natalia , спасибо! полез смотреть
источник

A

Andrey in Natural Language Processing
на моей задаче да.
источник

DE

Dani El-Ayyass in Natural Language Processing
Друзья, всем привет!

Я недавно выступал с докладом на тему «Web-сервис для генерации текстовых эмбеддингов» в Sberloga и теперь он доступен на YouTube - кто пропустил, можете посмотреть:
https://youtu.be/ZayiaA84oXg
YouTube
Web-сервис для генерации текстовых эмбеддингов - Дани Эль-Айясс
Одной из самых распространенных задач NLP является задача текстовой классификации. Для обучения такой модели текст нужно представить в виде эмбеддинга. Для этого существуют различные подходы к получению эмбеддингов текстов/предложений, одним из которых является Multilingual Universal Sentence Encoder (MUSE). MUSE реализован на базе архитектуры Transformer, поддерживает 16 языков, включая русский, и показывает хорошее качество в задаче классификации.

В нашей команде, мы используем MUSE в различных проектах. Однако поскольку модель является достаточно тяжелой, приходится задумываться об эффективном использовании ресурсов, чтобы не занимать лишнюю память копиями модели в виртуальных окружениях каждого члена команды.

Для решения данной проблемы, нами был разработан REST API сервис, который можно развернуть на сервере, куда каждый член команды имеет доступ.

У такого подхода также имеется ряд дополнительных преимуществ, о которых будет рассказано во время доклада.

Ссылка на репозиторий с сервисом: https://gith…
источник

VG

Vadim Gudkov in Natural Language Processing
Коллеги, натыкался ли кто-нибудь на хороший гайд по использованию трансформеров для задачи NER?
источник

B

Bladeser in Natural Language Processing
вроде видел как к берту пришпандоривали сверху полносвязную сетку и оно работало.
источник

DD

David Dale in Natural Language Processing
У меня есть блокнот с примером дообучения маленького русского BERT на медицинский NER.
Можно его попробовать взять за основу.
источник

VG

Vadim Gudkov in Natural Language Processing
Спасибо!
источник

VG

Vadim Gudkov in Natural Language Processing
А кто-то пробовал работать с Russian Drug Review Corpus ( https://sagteam.ru/med-corpus/ ) ? Я так и не нашел ссылки на корпус у них на сайте.
Знаю еще про существование Russian Drug Reaction Corpus ( https://github.com/cimm-kzn/RuDReC ). Он схожий (тоже NER для симптомов - интересующая меня задача) и открытый.
источник
2021 August 25

DD

David Dale in Natural Language Processing
Товарищи, а кто своими руками делал GAN (или что-то близкое) для текстов, расскажите, как вы градиент в генератор передавали, и что получилось?
источник

SancheZz Мов in Natural Language Processing
Электра очень напоминает gan
источник

SancheZz Мов in Natural Language Processing
По своему подходу
источник

SancheZz Мов in Natural Language Processing
Попробуй посмотреть код или папир
источник

DD

David Dale in Natural Language Processing
Про Электру знаю, спасибо) Это похоже, но не совсем то, т.к. в Электре генератор заменяет отдельные токены в тексте (которые потом дискриминатор должен выявить), а мой генератор должен создавать текст с нуля.

Сейчас я пользуюсь policy-based RL (алгоритм типа REINFORCE): увеличиваю вероятность сгенерированных текстов, которые нравятся дискриминатору, и уменьшают для тех, которые не нравятся. Это работает хорошо, но медленно - видимо, потому, что награда приходит за текст в целом, и генератор плохо понимает, какие токены надо заменить, и, главное, на что, и тратит много времени на пробы и ошибки. И вот я думаю, как эту штуку можно эффективнее ускорить.
источник

SancheZz Мов in Natural Language Processing
Классная идея с RL
источник

VA

Vitaly Akhmadiev in Natural Language Processing
Привет! обучаю NER на базе DeepPavlov-ской модельки для задачи поиска сущностей в документах.

Легкие теги, такие как ИНН, телефоны... находит хорошо, а вот тег ORG f1 очень слабенькая = 56%

Подскажите, как можно прокачать конкретный тег при обучении?
источник

FF

Futorio Franklin in Natural Language Processing
источник

М

Майя in Natural Language Processing
Возможно, разметить побольше документов с таким тегом, 50-100 примеров с конкретным классом мне хватало для NER на базе BERT
источник