Телеграмм чат группы natural_language

Вопрос по кривым датасетам и тому, как с этим бороться.

Есть задача классификации текстов. Есть комментарии пользователей относительно оказанной им услуги, которые классифицируются по 12 категориям. Задача multi-label classification, т. к. один отзыв может попадать как в одну, так и в несколько категорий.
Проблема датасета в том, что большая часть комментариев относится к одной или двум категориям. Т. е. где-то 80% всех комментов присваивается метка1 или метка2 или они вместе. Все остальные 20% примерно равномерно распределены по остальным категориям. Т. е. мне кажется, что массив очевидно кривой и обученная модель будет практически каждый новый комментарий засоввать в 1-ю или 2-ю категорию

Соответственно встал вопрос борьбы с этим и выравнивания обучающей выборки. Далее встал вопрос oversampling'а. Не undersampling'а, т. к. массив небольшой, порядка 5 500 текстов, и если убрать оттуда доминирующую котегорию(и), то он сократиться текстов до 500.

Ну и далее мой вопрос, на который я надеюсь получить тут ответ: а правильно я понимаю, что oversampling в данном случае будет происходить за счет того, что тексты с "непопулярными" метками будут скопированы в массиве несколько раз, дабы довести их долю до значимого процента? Не повлияет ли это в худшую сторону на способность модели классифицировать новые тексты, ведь для непопулярных категорий она будет учиться на одних и тех же текстах? Ну и вообще, правильно ли я подхожу к решению этой проблемы? Да и существует ли она тут или мне просто забыть про "кривой" обущающий датасет и учить модель на нем, какой он есть?

а то, что сеть и так обычно учится раз 30 или 60 на одних и тех же данных, тебя не смущает? :)

источник

19:33пожаловаться #4

AM

Alex Mak in Natural Language Processing

Yuri Baburov

а то, что сеть и так обычно учится раз 30 или 60 на одних и тех же данных, тебя не смущает? :)

источник

19:44пожаловаться #5

DP

Defragmented Panda in Natural Language Processing

Alex Mak

Вопрос по кривым датасетам и тому, как с этим бороться.

Есть задача классификации текстов. Есть комментарии пользователей относительно оказанной им услуги, которые классифицируются по 12 категориям. Задача multi-label classification, т. к. один отзыв может попадать как в одну, так и в несколько категорий.
Проблема датасета в том, что большая часть комментариев относится к одной или двум категориям. Т. е. где-то 80% всех комментов присваивается метка1 или метка2 или они вместе. Все остальные 20% примерно равномерно распределены по остальным категориям. Т. е. мне кажется, что массив очевидно кривой и обученная модель будет практически каждый новый комментарий засоввать в 1-ю или 2-ю категорию

Соответственно встал вопрос борьбы с этим и выравнивания обучающей выборки. Далее встал вопрос oversampling'а. Не undersampling'а, т. к. массив небольшой, порядка 5 500 текстов, и если убрать оттуда доминирующую котегорию(и), то он сократиться текстов до 500.

Ну и далее мой вопрос, на который я надеюсь получить тут ответ: а правильно я понимаю, что oversampling в данном случае будет происходить за счет того, что тексты с "непопулярными" метками будут скопированы в массиве несколько раз, дабы довести их долю до значимого процента? Не повлияет ли это в худшую сторону на способность модели классифицировать новые тексты, ведь для непопулярных категорий она будет учиться на одних и тех же текстах? Ну и вообще, правильно ли я подхожу к решению этой проблемы? Да и существует ли она тут или мне просто забыть про "кривой" обущающий датасет и учить модель на нем, какой он есть?

можешь просто score менять от количества меток которые сеть показывает как имеющиеся. это самый универсальный метод

источник

19:46пожаловаться #6

VP

Vishal Pawar in Natural Language Processing

It is easy to calculate accuracy of any model based on training data and test data. But how could calculate the accuracy of any algorithm as, algorithm does not depend on train and test data. It just takes inputs and produces output based on input provided. I have used cosine similarity algorithm to calculate similarity of words (Marathi Language). Then how can I calculate the accuracy of cosine similarity algorithm?. I am just able to calculate the similarity. But not able to calculate it’s accuracy. So, how to calculate accuracy of cosine similarity algorithm for word in Marathi language. Please give your suggestions. Thanking you.

источник

20:28пожаловаться #7

DP

Defragmented Panda in Natural Language Processing

Vishal Pawar

It is easy to calculate accuracy of any model based on training data and test data. But how could calculate the accuracy of any algorithm as, algorithm does not depend on train and test data. It just takes inputs and produces output based on input provided. I have used cosine similarity algorithm to calculate similarity of words (Marathi Language). Then how can I calculate the accuracy of cosine similarity algorithm?. I am just able to calculate the similarity. But not able to calculate it’s accuracy. So, how to calculate accuracy of cosine similarity algorithm for word in Marathi language. Please give your suggestions. Thanking you.

what type of data are we talking about?

источник

20:49пожаловаться #8

VP

Vishal Pawar in Natural Language Processing

Marathi language text.

источник

20:50пожаловаться #9

OS

Oleg Serikov in Natural Language Processing

Vishal Pawar

Marathi language text.

Well the cosine similarity algorithm is not the one that has to be evaluated in terms of accuracy cause there's no learning here.

So it seems to me that vectors themselves are to be evaluated. You'll probably succeed with googling it like an intrinsic evaluation of embeddings or smth like that.

If you have a parallel corpus with some well-resourced language then you could also try smth like take the resourced-language translations of your source language vectors and check whether the ones that are known (from the resourced language) to be similar are still similar in your language vectors space

источник

21:33пожаловаться #10

2020 August 19

SB

Sergey Bushmanov in Natural Language Processing

Alex Mak

Вопрос по кривым датасетам и тому, как с этим бороться.

Есть задача классификации текстов. Есть комментарии пользователей относительно оказанной им услуги, которые классифицируются по 12 категориям. Задача multi-label classification, т. к. один отзыв может попадать как в одну, так и в несколько категорий.
Проблема датасета в том, что большая часть комментариев относится к одной или двум категориям. Т. е. где-то 80% всех комментов присваивается метка1 или метка2 или они вместе. Все остальные 20% примерно равномерно распределены по остальным категориям. Т. е. мне кажется, что массив очевидно кривой и обученная модель будет практически каждый новый комментарий засоввать в 1-ю или 2-ю категорию

Соответственно встал вопрос борьбы с этим и выравнивания обучающей выборки. Далее встал вопрос oversampling'а. Не undersampling'а, т. к. массив небольшой, порядка 5 500 текстов, и если убрать оттуда доминирующую котегорию(и), то он сократиться текстов до 500.

Ну и далее мой вопрос, на который я надеюсь получить тут ответ: а правильно я понимаю, что oversampling в данном случае будет происходить за счет того, что тексты с "непопулярными" метками будут скопированы в массиве несколько раз, дабы довести их долю до значимого процента? Не повлияет ли это в худшую сторону на способность модели классифицировать новые тексты, ведь для непопулярных категорий она будет учиться на одних и тех же текстах? Ну и вообще, правильно ли я подхожу к решению этой проблемы? Да и существует ли она тут или мне просто забыть про "кривой" обущающий датасет и учить модель на нем, какой он есть?

Для обучения на imbalanced datasets ключевой вопрос — это метрики, например AUC вместо accuracy. Пересемплирование не добавит данных для обчения модели, а повлияет только на методику расчета метрики (имхо)

источник

11:36пожаловаться #11

A

Anthony in Natural Language Processing

Всем привет!
Подскажите, пожалуйста, на счет LocationExtractor есть ли возможность определять сущности типа "омский", "костромской" и т.п.? На данный момент не получается найти подобные сущности. Спасибо

источник

16:07пожаловаться #12

AX

Alex001 XX in Natural Language Processing

Еще вопрос: возможно ли использовать в текущей версии natasha yargi ner tagger а не нейросетевой?

источник

16:50пожаловаться #13

2020 August 20

В

Владислав in Natural Language Processing

Всем привет! В моделях slovnet нет лемматизатора?

источник