Телеграмм чат группы natural_language

Друзья, всем привет!

Я недавно выступал с докладом на тему «Web-сервис для генерации текстовых эмбеддингов» в Sberloga и теперь он доступен на YouTube - кто пропустил, можете посмотреть:
https://youtu.be/ZayiaA84oXg

YouTube

Web-сервис для генерации текстовых эмбеддингов - Дани Эль-Айясс

Одной из самых распространенных задач NLP является задача текстовой классификации. Для обучения такой модели текст нужно представить в виде эмбеддинга. Для этого существуют различные подходы к получению эмбеддингов текстов/предложений, одним из которых является Multilingual Universal Sentence Encoder (MUSE). MUSE реализован на базе архитектуры Transformer, поддерживает 16 языков, включая русский, и показывает хорошее качество в задаче классификации.

В нашей команде, мы используем MUSE в различных проектах. Однако поскольку модель является достаточно тяжелой, приходится задумываться об эффективном использовании ресурсов, чтобы не занимать лишнюю память копиями модели в виртуальных окружениях каждого члена команды.

Для решения данной проблемы, нами был разработан REST API сервис, который можно развернуть на сервере, куда каждый член команды имеет доступ.

У такого подхода также имеется ряд дополнительных преимуществ, о которых будет рассказано во время доклада.

Ссылка на репозиторий с сервисом: https://gith…

источник

09:29пожаловаться #6

Vadim Gudkov in Natural Language Processing

Коллеги, натыкался ли кто-нибудь на хороший гайд по использованию трансформеров для задачи NER?

источник

12:55пожаловаться #7

Bladeser in Natural Language Processing

вроде видел как к берту пришпандоривали сверху полносвязную сетку и оно работало.

источник

13:00пожаловаться #8

David Dale in Natural Language Processing

У меня есть блокнот с примером дообучения маленького русского BERT на медицинский NER.
Можно его попробовать взять за основу.

источник

13:04пожаловаться #9

Vadim Gudkov in Natural Language Processing

Спасибо!

источник

13:04пожаловаться #10

Vadim Gudkov in Natural Language Processing

А кто-то пробовал работать с Russian Drug Review Corpus ( https://sagteam.ru/med-corpus/ ) ? Я так и не нашел ссылки на корпус у них на сайте.
Знаю еще про существование Russian Drug Reaction Corpus ( https://github.com/cimm-kzn/RuDReC ). Он схожий (тоже NER для симптомов - интересующая меня задача) и открытый.

источник

13:39пожаловаться #11

2021 August 25

David Dale in Natural Language Processing

Товарищи, а кто своими руками делал GAN (или что-то близкое) для текстов, расскажите, как вы градиент в генератор передавали, и что получилось?

источник

12:59пожаловаться #12

SМ

SancheZz Мов in Natural Language Processing

Электра очень напоминает gan

источник

13:03пожаловаться #13

SМ

SancheZz Мов in Natural Language Processing

По своему подходу

источник

13:03пожаловаться #14

SМ

SancheZz Мов in Natural Language Processing

Попробуй посмотреть код или папир

источник

13:03пожаловаться #15

David Dale in Natural Language Processing

Про Электру знаю, спасибо) Это похоже, но не совсем то, т.к. в Электре генератор заменяет отдельные токены в тексте (которые потом дискриминатор должен выявить), а мой генератор должен создавать текст с нуля.

Сейчас я пользуюсь policy-based RL (алгоритм типа REINFORCE): увеличиваю вероятность сгенерированных текстов, которые нравятся дискриминатору, и уменьшают для тех, которые не нравятся. Это работает хорошо, но медленно - видимо, потому, что награда приходит за текст в целом, и генератор плохо понимает, какие токены надо заменить, и, главное, на что, и тратит много времени на пробы и ошибки. И вот я думаю, как эту штуку можно эффективнее ускорить.

источник

13:10пожаловаться #16

SМ

SancheZz Мов in Natural Language Processing

Классная идея с RL

источник

13:13пожаловаться #17

Vitaly Akhmadiev in Natural Language Processing

Привет! обучаю NER на базе DeepPavlov-ской модельки для задачи поиска сущностей в документах.

Легкие теги, такие как ИНН, телефоны... находит хорошо, а вот тег ORG f1 очень слабенькая = 56%

Подскажите, как можно прокачать конкретный тег при обучении?

источник

13:26пожаловаться #18

Futorio Franklin in Natural Language Processing

https://github.com/fursovia/dilma не помогло?

GitHub

GitHub - fursovia/dilma: DILMA: Differentiable Language Model Adversarial Attacks on Categorical Sequence Classifiers

DILMA: Differentiable Language Model Adversarial Attacks on Categorical Sequence Classifiers - GitHub - fursovia/dilma: DILMA: Differentiable Language Model Adversarial Attacks on Categorical Seque...

источник

13:56пожаловаться #19

Майя in Natural Language Processing

Возможно, разметить побольше документов с таким тегом, 50-100 примеров с конкретным классом мне хватало для NER на базе BERT

источник

14:35пожаловаться #20