Size: a a a

Natural Language Processing

2020 September 29

AW

Alex Wortega in Natural Language Processing
Коллеги а кто нибудь знает есть ли тг беседа курса HUAWEI по NLP
источник

IK

Irina Kasatkina in Natural Language Processing
Alex Wortega
Коллеги а кто нибудь знает есть ли тг беседа курса HUAWEI по NLP
Вроде, только в Slack'е. Там сейчас довольно активно.
источник

SZ

Sergey Zhuravlev in Natural Language Processing
Добрый вечер. Подскажите пожалуйста, как правильно поступить. У меня используется LinearSVC для мультиклассификации текста. Всего классов 5. И за пару дней у меня получилось настроить ее на очень хорошие (имхо) результаты около 96 процентов. Но мне надо чтобы  была 6 категория типа прочее или не удалось распознать. Как это правильно сделать? Потому что сейчас он строго выбирает между 5 классами. Не может же быть такого, что нужно обучить отдельный класс на белиберде?
источник

MK

Marianna Kovalova in Natural Language Processing
Alex Wortega
Коллеги а кто нибудь знает есть ли тг беседа курса HUAWEI по NLP
а что за курс?
источник

IK

Irina Kasatkina in Natural Language Processing
Marianna Kovalova
а что за курс?
Повыше поищите сообщение Валентина Малых.
источник

АП

Алексей Пахомов... in Natural Language Processing
Sergey Zhuravlev
Добрый вечер. Подскажите пожалуйста, как правильно поступить. У меня используется LinearSVC для мультиклассификации текста. Всего классов 5. И за пару дней у меня получилось настроить ее на очень хорошие (имхо) результаты около 96 процентов. Но мне надо чтобы  была 6 категория типа прочее или не удалось распознать. Как это правильно сделать? Потому что сейчас он строго выбирает между 5 классами. Не может же быть такого, что нужно обучить отдельный класс на белиберде?
Могу предположить, что меня закидают шапками  -> но я бы попробовал для начала оценить насколько модель неуверенна в классификации для «прочего» - логика простая, если модель сомневается то возможно это как раз не вписывается ни в один из классов.
источник

DD

David Dale in Natural Language Processing
Sergey Zhuravlev
Добрый вечер. Подскажите пожалуйста, как правильно поступить. У меня используется LinearSVC для мультиклассификации текста. Всего классов 5. И за пару дней у меня получилось настроить ее на очень хорошие (имхо) результаты около 96 процентов. Но мне надо чтобы  была 6 категория типа прочее или не удалось распознать. Как это правильно сделать? Потому что сейчас он строго выбирает между 5 классами. Не может же быть такого, что нужно обучить отдельный класс на белиберде?
1) можно обучать много 1 vs rest классификаторов, и если каждый предсказывает низкую уверенность в своем классе, то это "прочее"
2) если у тебя обычная многклассовая классификация, то добавить отдельный класс с белибердой может быть не такой уж плохой идеей
источник

SZ

Sergey Zhuravlev in Natural Language Processing
Спасибо за советы!
источник
2020 September 30

VG

Vadim Gudkov in Natural Language Processing
David Dale
1) можно обучать много 1 vs rest классификаторов, и если каждый предсказывает низкую уверенность в своем классе, то это "прочее"
2) если у тебя обычная многклассовая классификация, то добавить отдельный класс с белибердой может быть не такой уж плохой идеей
с п1 не согласен, абсолютно непредсказуемое поведение может быть. из опыта говорю, абсолюнто нерелевантный текст может быть с высокой долей вероятности отнесен к какому то классу
источник

SD

Sergey Dulikov in Natural Language Processing
Ну это уже вопрос как выстраивать обучение, какие модели и какую регуляризацию использовать. Именно схема выделения класса "другое" рабочая, логичная, сам так делаю, работоспособность подтверждаю.
источник

SD

Sergey Dulikov in Natural Language Processing
В эту же схему можно встроить и второй пункт, добавив в выборку мусорных сэмплов, но отдельный классификатор для класса мусор не использовать.
источник

SD

Sergey Dulikov in Natural Language Processing
То есть для каждого класса обучать классификатор с 1 - этот класс, 0 - все остальные классы И мусор
источник

SD

Sergey Dulikov in Natural Language Processing
И модели выбирать так, чтобы максимизировать пресижн, а не реколл
источник

SD

Sergey Dulikov in Natural Language Processing
Вернее лучше всего максимизировать recall при условии precision>0.95 или любое нужное число.
источник

SD

Sergey Dulikov in Natural Language Processing
Есть статья, где показано, что для SGD такой схемы можно добиться варьируя параметр C - вес положительного класса, если найду, скину
источник

DK

Dmitri Kapustin in Natural Language Processing
Sergey Zhuravlev
Добрый вечер. Подскажите пожалуйста, как правильно поступить. У меня используется LinearSVC для мультиклассификации текста. Всего классов 5. И за пару дней у меня получилось настроить ее на очень хорошие (имхо) результаты около 96 процентов. Но мне надо чтобы  была 6 категория типа прочее или не удалось распознать. Как это правильно сделать? Потому что сейчас он строго выбирает между 5 классами. Не может же быть такого, что нужно обучить отдельный класс на белиберде?
а если использовать мягкую классификацию predict_proba? чтобы все варианты  с низким вероятностями вхождения ссыпать в «прочее»
источник

SD

Sergey Dulikov in Natural Language Processing
Sergey Dulikov
Есть статья, где показано, что для SGD такой схемы можно добиться варьируя параметр C - вес положительного класса, если найду, скину
источник

AZ

Andrey Zakharov in Natural Language Processing
всем привет, тут уже задавали вопрос, но ответ на него я так и не нашел - решаю задачу классификации ответов на вопрос, который подразумевает ответ да/нет/остальное. Меня интересуют случаи, когда ответ дается в открытой форме. Например,
- ты мне звонил?
- звонил

или

- ты мне звонил?
- я тебе писал

какие есть подходы/статьи ?
источник

SZ

Sasha Zhu in Natural Language Processing
Всем привет!
Подскажите,  пожалуйста, кто-то занимался дообучением русской GPT-2? Я пытаюсь работать с https://github.com/mgrankin/ru_transformers, но во время обучения у меня начинает все падать после первой эпохи.
источник

NS

Nikolay V. Shmyrev in Natural Language Processing
Sasha Zhu
Всем привет!
Подскажите,  пожалуйста, кто-то занимался дообучением русской GPT-2? Я пытаюсь работать с https://github.com/mgrankin/ru_transformers, но во время обучения у меня начинает все падать после первой эпохи.
батч поменьше если памяти не хватает
источник