Size: a a a

Natural Language Processing

2021 July 25

N

Narges in Natural Language Processing
Hi guys For my supervise model I have a non-English tweet data set with binary Labels which I split them into train and test set.

I want to know if there is a model or library that can find a similarity between a text of the test tweet and train tweet and the most similar tweet get the label of that training tweet; I don't care if the result is accurate if a simple model like (word2vec, word-embedding or GloVe) will work it is enough.
If you have any suggestions I'll be happy to hear that.
источник

OM

Orzhan Mikhail in Natural Language Processing
Пока ждете, посмотрите gpt-neo
источник

d

dePuff in Natural Language Processing
Labse
источник

d

dePuff in Natural Language Processing
In other hand finetuning of any suitable model from https://huggingface.co/models on training set for classification will give you better result than your approach
источник

SH

Sergiy Horef in Natural Language Processing
Спасибо большое, посмотрю
источник

N

Narges in Natural Language Processing
Thank you so much👍
источник

AW

Alex Wortega in Natural Language Processing
Всем привет а кто то под onnyx русскую гпт запускал? Там конфликт пакетов (torch 1.4 для гпт и торч 1.7+ для оникса)
источник

AO

Alex Orgish in Natural Language Processing
В onnx экспортируешь, а потом эту модель можно под другим venv запускать.
источник

VF

Vadim Fomin in Natural Language Processing
источник

B

Banof in Natural Language Processing
🔫 @BARBARARobe кикнут — вернуть этого пользователя можно только разбаном в настройках чата.

Проголосовавшие за кик:
@wadimiusz, @evmazurov, @aorgish, @cointegrated, @ashatilov
При поддержке Золота Бородача
источник
2021 July 26

A

Alex in Natural Language Processing
Здравствуйте. Посоветуйте, пожалуйста, датасеты для машинного перевода, которые покрывают различные языки? Желательного общего плана (на разные тематики), а не узкопрофильные такие как Europarl
источник

CT

Cookie Thief in Natural Language Processing
https://opus.nlpl.eu/
Можно просто дернуть все датасеты отсюда, будет максимально разнообраный корпус)
источник

A

Alex in Natural Language Processing
Ух ты. Класс. Спасибо!
источник

N

Natalia in Natural Language Processing
у них ещё либы разные есть, можно походить по https://github.com/Helsinki-NLP, особенно вроде бы https://github.com/Helsinki-NLP/OpusTools/blob/master/opustools_pkg/README.md
источник

K

Kutuz4 in Natural Language Processing
Товарищи, а кто-то из присутствующих занимался модификацией обучения русской гпт от сбера? Дообучения точнее
источник

K

Kutuz4 in Natural Language Processing
И имеет ли это в целом смысл? Хочу добавить в обучение дополнительный лосс
источник

DD

David Dale in Natural Language Processing
Я дообучал на своих текстах, получилось хорошо
источник

K

Kutuz4 in Natural Language Processing
Я тоже дообучал. А вы изменяли сам код обучения?
источник

DD

David Dale in Natural Language Processing
Я просто взял trainer из transformers и подложил туда свои данные
источник

A

Anton in Natural Language Processing
У тебя был опыт работы с этим тренером на больших данных? 50-100 гб файл, который не влазит в память если использовать их библиотеку datasets
источник