Size: a a a

Natural Language Processing

2021 February 15

OM

Oleg Mosalov in Natural Language Processing
Я согласен, что нужно сначала смотреть на сами тексты, серебряной пули нет, надо от задачи отталкиваться.
источник

VF

Vadim Fomin in Natural Language Processing
Для кластеризации коротких текстов ещё можно попробовать GSDMM
источник

VF

Vadim Fomin in Natural Language Processing
источник

БД

Борис Добров... in Natural Language Processing
А чего хочется? Прсто из одного  получить другой, представление в другом пространстве?
источник

БД

Борис Добров... in Natural Language Processing
В смысле из одной кучки цифр, получить другую куску цифр?
источник

БД

Борис Добров... in Natural Language Processing
Кластеризация не самоцель, но средство
источник

VG

Vadim Gudkov in Natural Language Processing
Anthony
Мои сообщения по сути это обращения по продукту. Иногда там письма, иногда запись разговора оператора, иногда это комментарий оператора, иногда переписка с чатботом.
А вы заранее знаете, сколько кластеров вы хотите получить на выходе?
источник

МП

Михаил Притугин... in Natural Language Processing
Коллеги, подскажите, пожалуйста, есть задача такая:
Дано:
1) размеченные тексты по категориям (не очень много)
2) Данные того же распределения (того же источника), но неразмеченнные
Нужно: разложить неразмеченные данные по размеченным категориям + скинуть все что не подходит в мусор
Куда я думаю:
1) Тематическое моделирование (знаю про Seeded LDA, но кажется из BigARTM можно выжать больше - но не знаю можно ли там задавать что некоторые тексты точно пренадлежат одной теме и если можно, то как?)
2) Классификация эмбедингов после предобученных моделей
источник

МП

Михаил Притугин... in Natural Language Processing
С классификацией есть проблема - мусора в разметке нет, только целевые категории, а модель все равно разложит хоть куда нибудь
источник

A

Anthony in Natural Language Processing
Борис Добров
А чего хочется? Прсто из одного  получить другой, представление в другом пространстве?
Есть пул сообщений от клиентов. Например, клиент пишет, что заплатил за услугу, которую он не подключал и хочет вернуть деньги. Или же обращается с проблемой по услуге, например оплатил, а она не работает. Или какие-то баги в приложении. Иногда это сообщения от клиентов, иногда это запись разговора из колцентра, иногда сотрудник оставляет коммент в духе "клиент хочет то-то и то-то". Для упращения, аналитики попросили меня создать модель кластеризации, которая бы разделяла пул этих текстов на категории: "отключить, отменить, вернуть" или "не работает, не отражается" и т.п.
источник

DD

David Dale in Natural Language Processing
Anthony
Есть пул сообщений от клиентов. Например, клиент пишет, что заплатил за услугу, которую он не подключал и хочет вернуть деньги. Или же обращается с проблемой по услуге, например оплатил, а она не работает. Или какие-то баги в приложении. Иногда это сообщения от клиентов, иногда это запись разговора из колцентра, иногда сотрудник оставляет коммент в духе "клиент хочет то-то и то-то". Для упращения, аналитики попросили меня создать модель кластеризации, которая бы разделяла пул этих текстов на категории: "отключить, отменить, вернуть" или "не работает, не отражается" и т.п.
Возможно, на самом деле тебе нужна модель для классификации на заранее выбранные категории.
Не думал в этом направлении?
источник

A

Anthony in Natural Language Processing
Vadim Gudkov
А вы заранее знаете, сколько кластеров вы хотите получить на выходе?
Нет, но пока тестируем с разным количеством.
источник

DD

David Dale in Natural Language Processing
Михаил Притугин
С классификацией есть проблема - мусора в разметке нет, только целевые категории, а модель все равно разложит хоть куда нибудь
Можно обучить много независимых бинарных классификаторов на каждый класс, тогда потенциальным "мусором" можно будет счесть те тексты, для которых предсказанные вероятности всех классов не очень высокие.
источник

A

Anthony in Natural Language Processing
David Dale
Возможно, на самом деле тебе нужна модель для классификации на заранее выбранные категории.
Не думал в этом направлении?
Думал, но нет ресурса пока на разметку. В целом нынешние результаты кластеризации неплохие, вернее, удовлетворяют заказчика, но есть вещи, которые хотелось бы подправить, о них написалтвыше )
источник

A

Anthony in Natural Language Processing
Спасибо большое! Ознакомлюсь)
источник

VG

Vadim Gudkov in Natural Language Processing
Попробуйте DBScan в таком случае, там не надо указывать количество кластеров, он соберет сколько надо @tonyDestiny
источник

МП

Михаил Притугин... in Natural Language Processing
David Dale
Можно обучить много независимых бинарных классификаторов на каждый класс, тогда потенциальным "мусором" можно будет счесть те тексты, для которых предсказанные вероятности всех классов не очень высокие.
А одна модель с нужным кол-вом выходов (если говорим про классификатор из 1-2 слоев поверх берта например) разве не сможет делать тоже самое, то есть класс определяется argmax, но если эта вероятность ниже порога, то считать мусором
Чем это может быть хуже, чем независимые классификаторы?
источник

A

Anthony in Natural Language Processing
Vadim Gudkov
Попробуйте DBScan в таком случае, там не надо указывать количество кластеров, он соберет сколько надо @tonyDestiny
Ок, спасибо, посмотрю )
источник

DD

David Dale in Natural Language Processing
Михаил Притугин
А одна модель с нужным кол-вом выходов (если говорим про классификатор из 1-2 слоев поверх берта например) разве не сможет делать тоже самое, то есть класс определяется argmax, но если эта вероятность ниже порога, то считать мусором
Чем это может быть хуже, чем независимые классификаторы?
Да, так тоже можно делать, только на последнем слое надо делать не softmax, а независимые друг от друга сигмоиды.
источник

МП

Михаил Притугин... in Natural Language Processing
Спасибо, полезная информация!
источник