Size: a a a

Natural Language Processing

2020 August 18

GF

Grigory Frantsuzov in Natural Language Processing
Alex Mak
А разве 3-ю версию уже можно где-то «взять»?
говорят на проходной МФТИ на водку обменивают
источник

GF

Grigory Frantsuzov in Natural Language Processing
Alexander Zdorovets
можно подать заявку на доступ к API, но там огроменная очередь
на проходной тоже очередь
источник

AZ

Alexander Zdorovets in Natural Language Processing
Я очень рад за эту проходную, звучит как интересное место
источник

GF

Grigory Frantsuzov in Natural Language Processing
Alexander Zdorovets
можно подать заявку на доступ к API, но там огроменная очередь
а OpenAI не говорили когда опубликуют?
источник

AZ

Alexander Zdorovets in Natural Language Processing
Я не слышал ничего об этом, спекулировать даже не возьмусь. На данный момент, если судить по их FAQ, Они даже не особо планируют пока
источник

AP

Alex Peresmeshnik in Natural Language Processing
Какие сейчас топовые проблемы в NLP решаются?
источник

DP

Defragmented Panda in Natural Language Processing
Alex Peresmeshnik
Какие сейчас топовые проблемы в NLP решаются?
что угодно чем авторы gpt занимаются - то и считается топовой проблемой )
источник

AP

Alex Peresmeshnik in Natural Language Processing
Defragmented Panda
что угодно чем авторы gpt занимаются - то и считается топовой проблемой )
Это они флагманы сейчас в теме NLP?
источник

AP

Alex Peresmeshnik in Natural Language Processing
источник

DP

Defragmented Panda in Natural Language Processing
Alex Peresmeshnik
Это они флагманы сейчас в теме NLP?
да
источник

AP

Alex Peresmeshnik in Natural Language Processing
А у самого GPT-2 какие фундаментальные пробемы? :)
источник

AO

Alex Orgish in Natural Language Processing
Кстати, Karpathy свою gpt на коленке написал
https://twitter.com/karpathy/status/1295410274095095810?s=20
источник

AM

Alex Mak in Natural Language Processing
Вопрос по кривым датасетам и тому, как с этим бороться.

Есть задача классификации текстов. Есть комментарии пользователей относительно оказанной им услуги, которые классифицируются по 12 категориям. Задача multi-label classification, т. к. один отзыв может попадать как в одну, так и в несколько категорий.
Проблема датасета в том, что большая часть комментариев относится к одной или двум категориям. Т. е. где-то 80% всех комментов присваивается метка1 или метка2 или они вместе. Все остальные 20% примерно равномерно распределены по остальным категориям. Т. е. мне кажется, что массив очевидно кривой и обученная модель будет практически каждый новый комментарий засоввать в 1-ю или 2-ю категорию

Соответственно встал вопрос борьбы с этим и выравнивания обучающей выборки. Далее встал вопрос oversampling'а. Не undersampling'а, т. к. массив небольшой, порядка 5 500 текстов, и если убрать оттуда доминирующую котегорию(и), то он сократиться текстов до 500.

Ну и далее мой вопрос, на который я надеюсь получить тут ответ: а правильно я понимаю, что oversampling в данном случае будет происходить за счет того, что тексты с "непопулярными" метками будут скопированы в массиве несколько раз, дабы довести их долю до значимого процента? Не повлияет ли это в худшую сторону на способность модели классифицировать новые тексты, ведь для непопулярных категорий она будет учиться на одних и тех же текстах? Ну и вообще, правильно ли я подхожу к решению этой проблемы? Да и существует ли она тут или мне просто забыть про "кривой" обущающий датасет и учить модель на нем, какой он есть?
источник

FF

Futorio Franklin in Natural Language Processing
Alex Mak
Вопрос по кривым датасетам и тому, как с этим бороться.

Есть задача классификации текстов. Есть комментарии пользователей относительно оказанной им услуги, которые классифицируются по 12 категориям. Задача multi-label classification, т. к. один отзыв может попадать как в одну, так и в несколько категорий.
Проблема датасета в том, что большая часть комментариев относится к одной или двум категориям. Т. е. где-то 80% всех комментов присваивается метка1 или метка2 или они вместе. Все остальные 20% примерно равномерно распределены по остальным категориям. Т. е. мне кажется, что массив очевидно кривой и обученная модель будет практически каждый новый комментарий засоввать в 1-ю или 2-ю категорию

Соответственно встал вопрос борьбы с этим и выравнивания обучающей выборки. Далее встал вопрос oversampling'а. Не undersampling'а, т. к. массив небольшой, порядка 5 500 текстов, и если убрать оттуда доминирующую котегорию(и), то он сократиться текстов до 500.

Ну и далее мой вопрос, на который я надеюсь получить тут ответ: а правильно я понимаю, что oversampling в данном случае будет происходить за счет того, что тексты с "непопулярными" метками будут скопированы в массиве несколько раз, дабы довести их долю до значимого процента? Не повлияет ли это в худшую сторону на способность модели классифицировать новые тексты, ведь для непопулярных категорий она будет учиться на одних и тех же текстах? Ну и вообще, правильно ли я подхожу к решению этой проблемы? Да и существует ли она тут или мне просто забыть про "кривой" обущающий датасет и учить модель на нем, какой он есть?
Есть несколько видов андерсемплинга. Можно посмотреть их типы в https://imbalanced-learn.readthedocs.io/en/stable/over_sampling.html
источник

DP

Defragmented Panda in Natural Language Processing
Alex Peresmeshnik
А у самого GPT-2 какие фундаментальные пробемы? :)
да никаких конкретных. просто от него хотят еще больше удержания контекста. в чем он и так лучший
источник

FF

Futorio Franklin in Natural Language Processing
Либо с помощью предобученных моделей зафайнтюнить под вашу классификацию, там требуется меньше данных для обучения
источник

FF

Futorio Franklin in Natural Language Processing
К примеру universal sentence encoder (cnn или трансформер версия) в качестве эмбеддингов
источник

AM

Alex Mak in Natural Language Processing
Futorio Franklin
Либо с помощью предобученных моделей зафайнтюнить под вашу классификацию, там требуется меньше данных для обучения
Т е все-таки андерсамплинг? Ок, понял, посмотрю.
источник

AM

Alex Mak in Natural Language Processing
Спасибо
источник

FF

Futorio Franklin in Natural Language Processing
Alex Mak
Т е все-таки андерсамплинг? Ок, понял, посмотрю.
опечатался, оверсемплинг
источник