Size: a a a

Natural Language Processing

2020 September 25

YB

Yuri Baburov in Natural Language Processing
и ещё можно бинарные классификаторы строить для каждого типа
источник

SZ

Sergey Zhuravlev in Natural Language Processing
Dmitri Kapustin
можно посчитать веса классов class_weight  и добавить этот параметр при обучении
model.fit(X_train, Y_train, nb_epoch=5, batch_size=32, class_weight=class_weight)
Это можно сделать в LinearSVC?
источник

SZ

Sergey Zhuravlev in Natural Language Processing
Просто щас не за ПК, а так как я только ковыряю кагл, то не знаю)
источник

DK

Dmitri Kapustin in Natural Language Processing
Sergey Zhuravlev
Это можно сделать в LinearSVC?
я не использовал его, но у его в доке, тоже есть такой аргумент

class_weightdict or ‘balanced’, default=None
Set the parameter C of class i to class_weight[i]*C for SVC. If not given, all classes are supposed to have weight one. The “balanced” mode uses the values of y to automatically adjust weights inversely proportional to class frequencies in the input data as n_samples / (n_classes * np.bincount(y)).
источник

SZ

Sergey Zhuravlev in Natural Language Processing
Всем спасибо, @yuri_baburov и за ваш ответ))
источник

E

Elena in Natural Language Processing
Sergey Zhuravlev
Подскажите пожалуйста, у меня есть тренировочный датасет для классификации текста. Классов 5. Но датасет получается очень несбалансированным - в одном классе 2000 тыс строк, в другом 1500 а в третьем 400 например. Как обычно поступают в таких ситуациях? Не урезать же все до самого маленького?
еще есть разные методики data augmentation, поищите, успех зависит от сложности ваших текстов
источник

DP

Defragmented Panda in Natural Language Processing
Sergey Zhuravlev
Подскажите пожалуйста, у меня есть тренировочный датасет для классификации текста. Классов 5. Но датасет получается очень несбалансированным - в одном классе 2000 тыс строк, в другом 1500 а в третьем 400 например. Как обычно поступают в таких ситуациях? Не урезать же все до самого маленького?
1) брать батчи в которых данные нормализованы
2) случайные батчи но наказание за ошибку ложного отрицания редких классов пропорционально выше
источник

SZ

Sergey Zhuravlev in Natural Language Processing
Elena
еще есть разные методики data augmentation, поищите, успех зависит от сложности ваших текстов
Тексты оч. сложные. Это короткие предложения с кучей неправильных сокращений, длиной около 5 слов. Эмоционально не окрашенные, просто записи типа "есть, завод 65, 2 кг, ультра
источник

E

Elena in Natural Language Processing
мне кажется это как раз просто, сделать замену на синонимы, слова и фразы местами поменять
источник

E

Elena in Natural Language Processing
завод на фабрику, 2 кг на 100 тонн
источник

E

Elena in Natural Language Processing
или сделать какой-то базовый классификатор как есть, наклассифицировать им сырых текстов и выбрать только те, которые с большой вероятностью попадают в свои классы
источник

SZ

Sergey Zhuravlev in Natural Language Processing
С заменой попробую, спасибо!
источник

SZ

Sergey Zhuravlev in Natural Language Processing
Хотя вроде принадлежность к классу от этого ясней не станет...
источник

A

Aragaer in Natural Language Processing
я б для начала просто размножил редкие. Пусть они будут одинаковыми, главное чтобы попадались так же часто.
источник

A

Aragaer in Natural Language Processing
если это не поможет, тогда думать. Но вот именно такой вариант можно взять и попробовать
источник

A

Aragaer in Natural Language Processing
впрочем нет. Сначала бы я попробовал вообще как есть. И если этого достаточно, то можно больше и ничего не делать. Если получилось плохо, причем именно вида "он всегда дает частые и не дает редкие", то размножить редких и еще раз попробовать.
источник

SZ

Sergey Zhuravlev in Natural Language Processing
В моем случае текст "есть, завод 65, 2 кг, ультра" и "есть, завод 65, 2 кг, ультра ном" это категория 1, а "есть, завод 65, 2 кг, УЛЬТРА" и "завод ультр. 65, 2 кг, е-ть" категория 2. То есть даже при ручном труде мы не можем определить категорию чисто из текста, только по заранее предоставленному справочнику. Вот я и хочу чтоб сетка хоть как то попыталась выучить то, какими мелочами различались написания тренировочных образцов и предположила какие могли быть изменения в новых образцах чтоб правильно классифицировать
источник

SZ

Sergey Zhuravlev in Natural Language Processing
Если это возможно конечно. Но думаю взять просто максимально большим тренировочным датасетом для начала
источник

A

Aragaer in Natural Language Processing
когда я классифицировал разные названия продуктов по разным категориям, то у меня очень неравномерно - сортов сыра ощутимо больше, чем разных специй. Но результат все равно нормальный, поэтому больше я с этим ничего не делал
источник

A

Alexander in Natural Language Processing
Valentin Malykh
коллеги, мы все-таки делаем новый запуск нашего курса Natural Language Processing; курс в этот раз будет онлайн, занятия будут по Zoom; вести буду я, все материалы будут на английском, но сами занятия будут на русском; квизы и задания будут на Степике, приглашения на него разошлем всем, кто зарегистрируется в форме; первая лекция будет в 18:30 во вторник, 29 сентября; канал для общения по курсу будет ODS.ai #huawei_nlp_course

форма регистрации: https://forms.gle/EjLbmRjCyH6YEqNx8
И ещё вопрос, практика будет? Разбор задач, где можно будет задавать вопросы
источник