Телеграмм чат группы natural_language

Size: a a a

Natural Language Processing

3198 membersпожаловаться на группу

2021 July 07

Alex Wortega in Natural Language Processing

когда модель из под скрипта дергаю, когда добавляю модель - ничего

источник

15:12пожаловаться #1

Alexander C in Natural Language Processing

https://t.me/sberloga/89

Sberloga

🚀 @SBERLOGA продолжает онлайны доклады по NLP (Natural Language Processing)
👨‍🔬 Михаил Нефедов (Сбер) "NLP модели без токенизации"
⌚️ Четверг 8 июля, 19.00 по Москве

В докладе я расскажу о недавней статье от Google Research (https://arxiv.org/abs/2105.13626), в которой показывается, что трансформеры можно успешно обучать без какой-либо токенизации, на байтовых последовательностях. Отказ от токенизации упрощает пайплайн предобработки, значительно сокращает размеры входных и выходных слоев, а также делает модель более устойчивой к искажениям текста. Перфоманс полученных модулей не уступает, а иногда и превосходит аналогичные модели с токенизацией. Недостатком такого подхода является значительное увеличение длины последовательностей, которое приводит к снижению скорости обучения и инференса.

PS
Ссылка на зум будет доступна через тг чат https://t.me/sberlogadataclub ближе к началу доклада.
Видео записи докладов доступны на ютуб канале SBERLOGA https://www.youtube.com/c/sberloga

источник

15:15пожаловаться #2

Andrey Zhonin in Natural Language Processing

Делали, если хотя бы на уровне фраз сказано одним языком. Если иностранные слова прямо в фразе другого языка - проще модель того языка дополнить этими словами. Что касается фраз - следует распознать язык фразы, затем использовать нужную модель. Мультиязычная модель нормально не завелась, но не исключаю, что в принципе это возможно.

источник

16:54пожаловаться #3

nev in Natural Language Processing

👋

источник

16:58пожаловаться #4

Alex Wortega in Natural Language Processing

источник

17:09пожаловаться #5

S in Natural Language Processing

Anybody looking for 1 month working as summer intern... With good python and django knowlegde ... With nlp understanding. Plz msg ur earlier project detail.

источник

18:57пожаловаться #6

Natalia in Natural Language Processing

https://twitter.com/stanfordnlp/status/1412802306110726146?s=09

Twitter

Stanford NLP Group

Stanza, our Python #NLProc package for many human languages, v1.2.1 is out with models trained on Universal Dependencies v2.8 data; NER for bg, hu, fi, vi; a faster bulk_process mechanism; and improved tokenization in various lgs. Thanks @AngledLuffa! stanfordnlp.github.io/stanza/

источник

19:11пожаловаться #7

Natalia in Natural Language Processing

обновили на свежем релизе UD

источник

19:11пожаловаться #8

dePuff in Natural Language Processing

Anaphora resolution project? 😂

источник

19:14пожаловаться #9

S in Natural Language Processing

Yes

источник

19:21пожаловаться #10

Toemik Mnemonic in Natural Language Processing

Продолжаю вопросы по "сунул BERT как модель SpaCy". С BERT ом познакомился буквально вчера, потому пару тупых вопросов:
1) можно ли называть эмбедингами 768 мерные вектора используемые BERTbase (

xx_paraphrase_xlm_r_multilingual_v1

) ?
2) есть ли смысл строить на такой модели классификацию на основе similarity входящей фразы с контрольными "ключевыми фразами"
3) если 2 пункт - глупое решение, то необходимо предобученный BERT дообучить под свои задачи с помощью API SpaCy (https://spacy.io/api/data-formats#training) или же
вообще отказаться от использования SpaCy если учесть что лексические свойства объектов SpaCy использоваться не будут?

PS - задача классифицировать краткие фразы (3-4 токена)

Data formats

Data formats · spaCy API Documentation

Details on spaCy's input and output data formats

источник

19:58пожаловаться #11

dePuff in Natural Language Processing

А на сколько классов классифицировать?

источник

20:07пожаловаться #12

Toemik Mnemonic in Natural Language Processing

сейчас 15, и подход описанный в пункте 2 отрабатывает. но к концу проекта количество классов может вырасти еще на 50% процентов.

источник

20:09пожаловаться #13

Toemik Mnemonic in Natural Language Processing

пример фраз для одного из классов, что бы понимать что длина действительно крайне незначительная :

линия поддержки,взятка,хочу сообшить о взятке, сообшить о превышении долностных полномочий, конфликт интересов, горячая линия, жалоба, заявление, горячая линия, обращение от сотрудника, преступления, нарушение

источник

20:12пожаловаться #14

Alex Wortega in Natural Language Processing

Сбер?

источник

20:16пожаловаться #15

dePuff in Natural Language Processing

Как ненастоящему NLPнику мне не понять отчего не взять свежий понравившийся ноутбук на Кагле из классификации чего угодно Бертом от Hugging Face, где не [CLS] используют для полносвязной классифицировалки, а какой-нибудь пулинг, а если влом, то AutoModelForSequenceClassification с понравившимся Бертом с хаба HF

Две эпохи зафайнтюнить и закончить на этом )

Если бы мне хотелось сравнивать эмбединги предложений, я бы начал с https://github.com/UKPLab/sentence-transformers

Не всех бертов выходы можно по cousine distance сравнивать. Некоторые никто каким-нить триплет лоссом на это не учил.

источник

20:17пожаловаться #16

Toemik Mnemonic in Natural Language Processing

Не

источник

20:17пожаловаться #17

Toemik Mnemonic in Natural Language Processing

Спасибо . В любому случае вы не видите никакого смысла засовывать все это в SpaCy?)

источник

20:25пожаловаться #18

dePuff in Natural Language Processing

Я так себе показатель в вопросе сувать или нет

Ребята говорят: нравятся нам пайплайны от SpaCy

источник

20:26пожаловаться #19

dePuff in Natural Language Processing

Но страдать со SpaCy ради SpaCy я бы не стал )

источник

20:29пожаловаться #20