Size: a a a

Natural Language Processing

2020 August 18

AM

Alex Mak in Natural Language Processing
)))
источник

AP

Alex Peresmeshnik in Natural Language Processing
Defragmented Panda
да никаких конкретных. просто от него хотят еще больше удержания контекста. в чем он и так лучший
Ресурсоемкость может быть проблемой :)
источник

DP

Defragmented Panda in Natural Language Processing
Alex Peresmeshnik
Ресурсоемкость может быть проблемой :)
пока компы для него можно купить за годовую зарплату - все счастливы )
источник

YB

Yuri Baburov in Natural Language Processing
Alex Mak
Вопрос по кривым датасетам и тому, как с этим бороться.

Есть задача классификации текстов. Есть комментарии пользователей относительно оказанной им услуги, которые классифицируются по 12 категориям. Задача multi-label classification, т. к. один отзыв может попадать как в одну, так и в несколько категорий.
Проблема датасета в том, что большая часть комментариев относится к одной или двум категориям. Т. е. где-то 80% всех комментов присваивается метка1 или метка2 или они вместе. Все остальные 20% примерно равномерно распределены по остальным категориям. Т. е. мне кажется, что массив очевидно кривой и обученная модель будет практически каждый новый комментарий засоввать в 1-ю или 2-ю категорию

Соответственно встал вопрос борьбы с этим и выравнивания обучающей выборки. Далее встал вопрос oversampling'а. Не undersampling'а, т. к. массив небольшой, порядка 5 500 текстов, и если убрать оттуда доминирующую котегорию(и), то он сократиться текстов до 500.

Ну и далее мой вопрос, на который я надеюсь получить тут ответ: а правильно я понимаю, что oversampling в данном случае будет происходить за счет того, что тексты с "непопулярными" метками будут скопированы в массиве несколько раз, дабы довести их долю до значимого процента? Не повлияет ли это в худшую сторону на способность модели классифицировать новые тексты, ведь для непопулярных категорий она будет учиться на одних и тех же текстах? Ну и вообще, правильно ли я подхожу к решению этой проблемы? Да и существует ли она тут или мне просто забыть про "кривой" обущающий датасет и учить модель на нем, какой он есть?
а то, что сеть и так обычно учится раз 30 или 60 на одних и тех же данных, тебя не смущает? :)
источник

AM

Alex Mak in Natural Language Processing
Yuri Baburov
а то, что сеть и так обычно учится раз 30 или 60 на одних и тех же данных, тебя не смущает? :)
источник

DP

Defragmented Panda in Natural Language Processing
Alex Mak
Вопрос по кривым датасетам и тому, как с этим бороться.

Есть задача классификации текстов. Есть комментарии пользователей относительно оказанной им услуги, которые классифицируются по 12 категориям. Задача multi-label classification, т. к. один отзыв может попадать как в одну, так и в несколько категорий.
Проблема датасета в том, что большая часть комментариев относится к одной или двум категориям. Т. е. где-то 80% всех комментов присваивается метка1 или метка2 или они вместе. Все остальные 20% примерно равномерно распределены по остальным категориям. Т. е. мне кажется, что массив очевидно кривой и обученная модель будет практически каждый новый комментарий засоввать в 1-ю или 2-ю категорию

Соответственно встал вопрос борьбы с этим и выравнивания обучающей выборки. Далее встал вопрос oversampling'а. Не undersampling'а, т. к. массив небольшой, порядка 5 500 текстов, и если убрать оттуда доминирующую котегорию(и), то он сократиться текстов до 500.

Ну и далее мой вопрос, на который я надеюсь получить тут ответ: а правильно я понимаю, что oversampling в данном случае будет происходить за счет того, что тексты с "непопулярными" метками будут скопированы в массиве несколько раз, дабы довести их долю до значимого процента? Не повлияет ли это в худшую сторону на способность модели классифицировать новые тексты, ведь для непопулярных категорий она будет учиться на одних и тех же текстах? Ну и вообще, правильно ли я подхожу к решению этой проблемы? Да и существует ли она тут или мне просто забыть про "кривой" обущающий датасет и учить модель на нем, какой он есть?
можешь просто score менять от количества меток которые сеть показывает как имеющиеся. это самый универсальный метод
источник

VP

Vishal Pawar in Natural Language Processing
It is easy to calculate accuracy of any model based on training data and test data. But how could calculate the accuracy of any algorithm as, algorithm does not depend on train and test data. It just takes inputs and produces output based on input provided. I have used cosine similarity algorithm to calculate similarity of words (Marathi Language). Then how can I calculate the accuracy of cosine similarity algorithm?. I am just able to calculate the similarity. But not able to calculate it’s accuracy.  So, how to calculate accuracy of cosine similarity algorithm for word in Marathi language. Please give your suggestions. Thanking you.
источник

DP

Defragmented Panda in Natural Language Processing
Vishal Pawar
It is easy to calculate accuracy of any model based on training data and test data. But how could calculate the accuracy of any algorithm as, algorithm does not depend on train and test data. It just takes inputs and produces output based on input provided. I have used cosine similarity algorithm to calculate similarity of words (Marathi Language). Then how can I calculate the accuracy of cosine similarity algorithm?. I am just able to calculate the similarity. But not able to calculate it’s accuracy.  So, how to calculate accuracy of cosine similarity algorithm for word in Marathi language. Please give your suggestions. Thanking you.
what type of data are we talking about?
источник

VP

Vishal Pawar in Natural Language Processing
Marathi language text.
источник

OS

Oleg Serikov in Natural Language Processing
Vishal Pawar
Marathi language text.
Well the cosine similarity algorithm is not the one that has to be evaluated in terms of accuracy cause there's no learning here.

So it seems to me that vectors themselves are to be evaluated. You'll probably succeed with googling it like an intrinsic evaluation of embeddings or smth like that.

If you have a parallel corpus with some well-resourced language then you could also try smth like take the resourced-language translations of your source language vectors and check whether the ones that are known (from the resourced language) to be similar are still similar in your language vectors space
источник
2020 August 19

SB

Sergey Bushmanov in Natural Language Processing
Alex Mak
Вопрос по кривым датасетам и тому, как с этим бороться.

Есть задача классификации текстов. Есть комментарии пользователей относительно оказанной им услуги, которые классифицируются по 12 категориям. Задача multi-label classification, т. к. один отзыв может попадать как в одну, так и в несколько категорий.
Проблема датасета в том, что большая часть комментариев относится к одной или двум категориям. Т. е. где-то 80% всех комментов присваивается метка1 или метка2 или они вместе. Все остальные 20% примерно равномерно распределены по остальным категориям. Т. е. мне кажется, что массив очевидно кривой и обученная модель будет практически каждый новый комментарий засоввать в 1-ю или 2-ю категорию

Соответственно встал вопрос борьбы с этим и выравнивания обучающей выборки. Далее встал вопрос oversampling'а. Не undersampling'а, т. к. массив небольшой, порядка 5 500 текстов, и если убрать оттуда доминирующую котегорию(и), то он сократиться текстов до 500.

Ну и далее мой вопрос, на который я надеюсь получить тут ответ: а правильно я понимаю, что oversampling в данном случае будет происходить за счет того, что тексты с "непопулярными" метками будут скопированы в массиве несколько раз, дабы довести их долю до значимого процента? Не повлияет ли это в худшую сторону на способность модели классифицировать новые тексты, ведь для непопулярных категорий она будет учиться на одних и тех же текстах? Ну и вообще, правильно ли я подхожу к решению этой проблемы? Да и существует ли она тут или мне просто забыть про "кривой" обущающий датасет и учить модель на нем, какой он есть?
Для обучения на imbalanced datasets ключевой вопрос — это метрики, например AUC вместо accuracy. Пересемплирование не добавит данных для обчения модели, а повлияет только на методику расчета метрики (имхо)
источник

A

Anthony in Natural Language Processing
Всем привет!
Подскажите, пожалуйста, на счет LocationExtractor есть ли возможность определять сущности типа "омский", "костромской" и т.п.? На данный момент не получается найти подобные сущности. Спасибо
источник

AX

Alex001 XX in Natural Language Processing
Еще вопрос: возможно ли использовать в текущей версии natasha yargi ner tagger а не нейросетевой?
источник
2020 August 20

В

Владислав in Natural Language Processing
Всем привет! В моделях slovnet нет лемматизатора?
источник

AK

Alexander Kukushkin in Natural Language Processing
Владислав
Всем привет! В моделях slovnet нет лемматизатора?
Нет, есть в библиотеке natasha
источник

В

Владислав in Natural Language Processing
Alexander Kukushkin
Нет, есть в библиотеке natasha
Сейчас там переиспользование pymorphy2 или уже свое?
источник

AK

Alexander Kukushkin in Natural Language Processing
Pymorphy + морфология от slovnet
источник

NL

Nikolay Lebedev in Natural Language Processing
Приветствую!
Есть какой то простой способ отличить слово от бреда?
Написал пользователь привет, или вапврдлоыукекпахз
источник

AS

Alex Surname in Natural Language Processing
привет. в словаре проверить на наличие
источник

AS

Alex Surname in Natural Language Processing
после лемматизации
источник