Телеграмм чат группы natural_language

Я одна не понимаю, зачем генеративные модели для классификации использовать?

16:35пожаловаться #1

Alexander Pimenov in Natural Language Processing

Нет, квантизация тут ни причем, капсулы - это такая довольно новая архитектура нейронных сетей, которая позволяет "учесть" всякие внутренние симметрии. Было интересно попробовать, но я не считаю что обязательно их использовать. Точно ясно что GPT не содержит энкодера и это проблема для решения задач классификации обычным способом как с Бертом. Конечно, эмбеддинги GPT много полезного содержат, но использовать эти фичи не так просто

16:36пожаловаться #2

Помню, что когда-то в связке с квантизацией о них слышала, но на практике не применяла

16:37пожаловаться #3

16:38пожаловаться #4

How can I use GPT 3 for my text classification?

Нашла вот тут https://stackoverflow.com/questions/63321892/how-can-i-use-gpt-3-for-my-text-classification интересно

Stack Overflow

I am wondering if I can be able to use OpenAI GPT-3 for transfer learning in a text classification problem?
If so, how can I get start on it using Tensorflow, Keras.

16:38пожаловаться #5

@ksioucha

16:38пожаловаться #6

Да, это офигенно работает

16:38пожаловаться #7

Alexander Pimenov in Natural Language Processing

Ну да, с таким размером модели неудивительно)

16:39пожаловаться #8

Ну и снова-таки, это работает у ОпенАИ, а вот интересно, как с подобной задачей ру-вариант справится)

16:40пожаловаться #9

Can we use GPT-2 sentence embedding for classification tasks?

https://stackoverflow.com/questions/60574112/can-we-use-gpt-2-sentence-embedding-for-classification-tasks вот тут говорят, что все равно берт лучше (потому что он заточен под такие задачи)

Stack Overflow

I am experimenting on the use of transformer embeddings in sentence classification tasks without finetuning them. I have used BERT embeddings and those experiments gave me very good results. Now I ...

Тимофей Смирнов... in Natural Language Processing

16:41пожаловаться #10

ТС

Кажется в хаггингфейс так и не завезли MLM трейнинг для GPT моделей, без этого грустно конечно с ними работать, Bert обычный лучше получается

16:41пожаловаться #11

Тут несколько о другом, все же)

16:42пожаловаться #12

Да, ну я просто смотрю разные варианты

16:42пожаловаться #13

Тут еще вопрос стоимости такого подхода, если доступ к модели платный

16:43пожаловаться #14

Для поиграться сойдет, а если использовать в проде или даже в ресерче...

Orzhan Mikhail in Natural Language Processing

16:43пожаловаться #15

Точность few shot сильно зависит от размера модели и наименьшая из OpenAI GPT-3 тоже будет не очень. У ruGPT3 в облаке доступна 13B модель, которая могла бы справиться с few shot постановкой (кто-то с ней работал уже?)

16:44пожаловаться #16

Alexander Pimenov in Natural Language Processing

Скорее как более старая GPT-2 будет работать, примеров работы ruGPT-3 довольно много и впечатление однозначное ) Это совсем неплохо но и не супер )

16:45пожаловаться #17

Few shot не тестила с ру, а вот точность опенаи практически во всех моделях бьет берты

16:45пожаловаться #18

Ну это подтверждает мою гипотезу и впечатление

16:45пожаловаться #19

Спасибо)