Size: a a a

Natural Language Processing

2021 June 23

GF

Grigory Frantsuzov in Natural Language Processing
спасибо!
источник

A

Anton in Natural Language Processing
А про что задача, напомни, плиз.
источник

DD

David Dale in Natural Language Processing
Это задача из соревнования Сбера 2017 года, про неё чуть позже написали статью, там надо отвечать на вопросы по мотивам короткого абзаца текста.
источник

A

Anton in Natural Language Processing
👍🏻Спасибо.
источник

A

Anton in Natural Language Processing
Ага, только задача ask мне подходит. А на каких данных ты её тренировал?
источник

DD

David Dale in Natural Language Processing
На всё том же sberquad
источник

AK

Alexander Kukushkin in Natural Language Processing
🚀 @SBERLOGA продолжает онлайны доклады по NLP (Natural Language Processing)
👨‍🔬 Андрей Лукьяненко  (MTC AИ) "Практические аспекты работы с задачей NER"
⌚️ Четверг 24 июня, 19.00 по Москве

Named Entity Recognition - одна из самых известных задач NLP. Существует большое количество походов, основанных на тех или иных архитектурах Transformer, которые показывают отличные результаты на бенчмарках и в реальной жизни.
Тем не менее в проектах не всегда есть возможность использовать эти модели - например из-за инфраструктурных ограничений или из-за недостатка размеченных данных. В таких случаях весьма хорошие результаты могут показать подходы попроще.
В этом докладе я вначале расскажу о постановке задачи NER, схемах разметки и способах оценки качества моделей. Затем продемонстрирую различные подходы к построению моделей и в заключение дам советы о том, как можно улучшить качество таких подходов.

PS
Ссылка на зум будет доступна через  тг чат https://t.me/sberlogadataclub ближе к началу доклада.
Видео записи докладов доступны на ютуб канале SBERLOGA  https://www.youtube.com/c/sberloga
PSPS
Далее: 1 июля Александр Абрамов "Обучение универсальной модели NLU c BERT и Multitask Learning"
https://m.habr.com/ru/company/sberdevices/blog/560748/
источник
2021 June 24

VF

Vadim Fomin in Natural Language Processing
источник

B

Banof in Natural Language Processing
🔫 @Stefon9 кикнут — вернуть этого пользователя можно только разбаном в настройках чата.

Проголосовавшие за кик:
@wadimiusz, @oserikov, @automotom, @ksioucha, @Nikitini
При поддержке Золота Бородача
источник

Е

Егорка in Natural Language Processing
источник

B

Banof in Natural Language Processing
🔫 @desirae_1822 кикнут — вернуть этого пользователя можно только разбаном в настройках чата.

Проголосовавшие за кик:
@mr_B1onde, @sorrow321, @eugenemd, @lalashechka, @SamsonovaDaria
При поддержке Золота Бородача
источник

MS

Manglam Sen in Natural Language Processing
Hello, guys we have started a full NLP(natural language processing) course in free anyone wants to join and learn in free?
источник

VM

Victor Maslov in Natural Language Processing
why would we? we don't even join free chat platforms, but using this one with mandarory auth via phone=passport
источник

AC

Alexander C in Natural Language Processing
Telegram
Sberloga
🚀 @SBERLOGA продолжает онлайны доклады по NLP (Natural Language Processing)
👨‍🔬 Андрей Лукьяненко  (MTC AИ) "Практические аспекты работы с задачей NER"
⌚️ Четверг 24 июня, 19.00 по Москве

Named Entity Recognition - одна из самых известных задач NLP. Существует большое количество походов, основанных на тех или иных архитектурах Transformer, которые показывают отличные результаты на бенчмарках и в реальной жизни.
Тем не менее в проектах не всегда есть возможность использовать эти модели - например из-за инфраструктурных ограничений или из-за недостатка размеченных данных. В таких случаях весьма хорошие результаты могут показать подходы попроще.
В этом докладе я вначале расскажу о постановке задачи NER, схемах разметки и способах оценки качества моделей. Затем продемонстрирую различные подходы к построению моделей и в заключение дам советы о том, как можно улучшить качество таких подходов.

PS
Ссылка на зум будет доступна через  тг чат https://t.me/sberlogadataclub ближе к началу доклада.
Видео записи докладов…
источник

ЕЗ

Евгений Зубов... in Natural Language Processing
Подскажите, люди опытные.

1. Дообучил стандартную модельку для русского языка для решения задачи NER. F1 для каждой обученное метки больше 0,95 на данных, которая модель никогда не видела, но которые являются частью общего датасета. Разметка делалась вручную лично мной. 35 тыс примеров на обучении и 8 тыс для оценке метрик. Расчет метрик через стандартный класс в nlp.evaluate.

На реальных данных, которые ну очень похожи на данные из датасета (посты из соцсетей и там и там), если смотреть на результы глазами человека и приложить свою субъективную оценку,  то F1 0.95 и не пахнет.

Вопрос, ожидать ли значительного улучшения качества детектирования сущностей при переходе на трансформеры?

2. Spacy 3 по умолчанию же НЕ использует модели трансформеры, а какиу-то свою архитектуру?

3. Как понять, какая модель в Spacy 3 является или не является трансформером? По _trf в названии или как-то еще?

4. Правильно ли я понял, что для русского языка трансформера в Spacy 3 еще нет, даже за рамками официального репозитория?
источник

IK

Igor Kucherevsky in Natural Language Processing
1 нет
2 нет
3 по _trf в названии
4 кажется нет
источник

Е

Егорка in Natural Language Processing
Какую вы модель называете стандартной для NER? Просто интересно. А то, на мой взгляд, большинство считает уже трансформеры стандартом.
В том, что на других данных качество значительно хуже, нет ничего удивительного. Всё таки предметная область изменилась.
источник

АЖ

Антон Жиянов... in Natural Language Processing
В spacy нет официальной модели для русского, но вы можете подключить любую модель от huggingface

https://spacy.io/universe/project/spacy-transformers

https://huggingface.co/DeepPavlov/rubert-base-cased
источник

A

Anton in Natural Language Processing
Можешь и сам обучить трансформер - там это достаточно просто сделать.
источник

D

Dmitriy in Natural Language Processing
как это нет?  
https://spacy.io/models/ru
источник