Size: a a a

Natural Language Processing

2021 July 07

AW

Alex Wortega in Natural Language Processing
когда модель из под скрипта дергаю, когда добавляю модель - ничего
источник

AC

Alexander C in Natural Language Processing
Telegram
Sberloga
🚀 @SBERLOGA продолжает онлайны доклады по NLP (Natural Language Processing)
👨‍🔬 Михаил Нефедов (Сбер) "NLP модели без токенизации"
⌚️ Четверг 8 июля, 19.00 по Москве


В докладе я расскажу о недавней статье от Google Research (https://arxiv.org/abs/2105.13626), в которой показывается, что трансформеры можно успешно обучать без какой-либо токенизации, на байтовых последовательностях. Отказ от токенизации упрощает пайплайн предобработки, значительно сокращает размеры входных и выходных слоев, а также делает модель более устойчивой к искажениям текста. Перфоманс полученных модулей не уступает, а иногда и превосходит аналогичные модели с токенизацией. Недостатком такого подхода является значительное увеличение длины последовательностей, которое приводит к снижению скорости обучения и инференса.

PS
Ссылка на зум будет доступна через  тг чат https://t.me/sberlogadataclub ближе к началу доклада.
Видео записи докладов доступны на ютуб канале SBERLOGA  https://www.youtube.com/c/sberloga
источник

AZ

Andrey Zhonin in Natural Language Processing
Делали, если хотя бы на уровне фраз сказано одним языком. Если иностранные слова прямо в фразе другого языка - проще модель того языка дополнить этими словами. Что касается фраз - следует распознать язык фразы, затем использовать нужную модель. Мультиязычная модель нормально не завелась, но не исключаю, что в принципе это возможно.
источник

n

nev in Natural Language Processing
👋
источник

AW

Alex Wortega in Natural Language Processing
?
источник

S

S in Natural Language Processing
Anybody looking for 1 month working as summer intern... With good python and django knowlegde ... With nlp understanding. Plz msg ur earlier project detail.
источник

N

Natalia in Natural Language Processing
источник

N

Natalia in Natural Language Processing
обновили на свежем релизе UD
источник

d

dePuff in Natural Language Processing
Anaphora resolution project? 😂
источник

S

S in Natural Language Processing
Yes
источник

TM

Toemik Mnemonic in Natural Language Processing
Продолжаю вопросы по "сунул BERT  как модель SpaCy". С BERT ом познакомился буквально вчера, потому пару тупых вопросов:
1) можно ли называть эмбедингами 768 мерные вектора  используемые BERTbase (
xx_paraphrase_xlm_r_multilingual_v1
) ?
2) есть ли смысл строить на такой модели классификацию на основе similarity входящей фразы с контрольными "ключевыми фразами"
3) если 2 пункт - глупое решение, то необходимо предобученный BERT дообучить под свои задачи с помощью API SpaCy (https://spacy.io/api/data-formats#training) или же
вообще отказаться от использования SpaCy если учесть что лексические свойства объектов SpaCy использоваться не будут?

PS - задача классифицировать краткие фразы (3-4 токена)
источник

d

dePuff in Natural Language Processing
А на сколько классов классифицировать?
источник

TM

Toemik Mnemonic in Natural Language Processing
сейчас 15, и подход описанный  в пункте 2 отрабатывает. но к концу проекта количество классов может вырасти еще на 50% процентов.
источник

TM

Toemik Mnemonic in Natural Language Processing
пример фраз для одного из классов, что бы понимать что длина действительно крайне незначительная :  
линия поддержки,взятка,хочу сообшить о взятке, сообшить о превышении долностных полномочий, конфликт интересов, горячая линия, жалоба, заявление, горячая линия, обращение от сотрудника, преступления, нарушение
источник

AW

Alex Wortega in Natural Language Processing
Сбер?
источник

d

dePuff in Natural Language Processing
Как ненастоящему NLPнику мне не понять отчего не взять свежий понравившийся ноутбук на Кагле из классификации чего угодно Бертом от Hugging Face, где не [CLS] используют для полносвязной классифицировалки, а какой-нибудь пулинг, а если влом, то AutoModelForSequenceClassification с понравившимся Бертом с хаба HF

Две эпохи зафайнтюнить и закончить на этом )

Если бы мне хотелось сравнивать эмбединги предложений,  я бы начал с https://github.com/UKPLab/sentence-transformers

Не всех бертов выходы можно по cousine distance сравнивать. Некоторые никто каким-нить триплет лоссом на это не учил.
источник

TM

Toemik Mnemonic in Natural Language Processing
Не
источник

TM

Toemik Mnemonic in Natural Language Processing
Спасибо . В любому случае вы не видите никакого смысла засовывать все это в SpaCy?)
источник

d

dePuff in Natural Language Processing
Я так себе показатель в вопросе сувать или нет

Ребята говорят: нравятся нам пайплайны от SpaCy
источник

d

dePuff in Natural Language Processing
Но страдать со  SpaCy ради SpaCy я бы не стал )
источник