Size: a a a

Natural Language Processing

2021 February 14

DD

David Dale in Natural Language Processing
Sergey Shulga
А я может пропустил, как с gpt3 снять эмбединг? Ну то есть подал на вход текст- на выход вектор этого текста. С какого слоя снимать?
А зачем?
GPT-подобные модели вроде не очень предназначены для этого)
источник

DD

David Dale in Natural Language Processing
Sergey Shulga
А я может пропустил, как с gpt3 снять эмбединг? Ну то есть подал на вход текст- на выход вектор этого текста. С какого слоя снимать?
Если хочется получить контекстный вектор для каждого слова по отдельности, лучше брать BERT-подобные модели.
Если хочется единый вектор для всего текста, надо брать специальные sentence encoder'ы - например, какую-нибудь модельку из sentence-transformers, или universal sentence encoder, или Laser. Впрочем, насколько я знаю, ни одна из них не предназначалась для длинных текстов.
источник

SS

Sergey Shulga in Natural Language Processing
David Dale
А зачем?
GPT-подобные модели вроде не очень предназначены для этого)
Хочется поэкспериментировать с вектором предложения. Для русского текста разве есть что-то в laser?
источник

SP

Sebastian Pereira in Natural Language Processing
Sergey Shulga
Хочется поэкспериментировать с вектором предложения. Для русского текста разве есть что-то в laser?
Да
источник

SS

Sergey Shulga in Natural Language Processing
David Dale
А зачем?
GPT-подобные модели вроде не очень предназначены для этого)
Опять же, сетка это так и так делает.
источник

DD

David Dale in Natural Language Processing
Sergey Shulga
Хочется поэкспериментировать с вектором предложения. Для русского текста разве есть что-то в laser?
И laser, и use мультиязычные, и там русский - один из поддерживаемых языков.
источник

SS

Sergey Shulga in Natural Language Processing
Черт, пропустил. Есть русские модели для laser? Какую порекомендуете?
источник

SS

Sergey Shulga in Natural Language Processing
Все, пошел изучать
источник

DD

David Dale in Natural Language Processing
Sergey Shulga
Опять же, сетка это так и так делает.
Неверно. GPT ни в одном месте не делает единое векторное представление для всего текста сразу. Вместо этого она обращает внимание на отдельные слова - на каждом шаге генерации на разные. В этом, собственно, её и сила)
источник

DD

David Dale in Natural Language Processing
Sergey Shulga
Черт, пропустил. Есть русские модели для laser? Какую порекомендуете?
источник
2021 February 15

A

Anthony in Natural Language Processing
Всем привет! Сейчас учусь кластеризировать тексты и такой вопрос:
1. у меня KMeans выделяет одинаковые ключевые слова в разных кластерах, можно ли как-то их объеденить или из одного кластера исключать определенные слова?
2. После обработки текстов (удаление стоп слов, нормализации и проч) в некоторых текстах остается одно-два слова. И эти тексты выделяются в отдельных кластер. Такие тексты на практике отбоасываются или к ним есть какой-то подход? Интересно, как профи подходят к решению
источник

OM

Oleg Mosalov in Natural Language Processing
Anthony
Всем привет! Сейчас учусь кластеризировать тексты и такой вопрос:
1. у меня KMeans выделяет одинаковые ключевые слова в разных кластерах, можно ли как-то их объеденить или из одного кластера исключать определенные слова?
2. После обработки текстов (удаление стоп слов, нормализации и проч) в некоторых текстах остается одно-два слова. И эти тексты выделяются в отдельных кластер. Такие тексты на практике отбоасываются или к ним есть какой-то подход? Интересно, как профи подходят к решению
1. Что именно Вы кластеризируеете, какие-то эмбеддинги?
2. Какой процент "плохих" текстов, от коротых остается одно-два слова? Сколько слов в среднем в остается в "хороших" текстах?
3. Смотрели ли на латентное размещение Дирихле?
источник

БД

Борис Добров... in Natural Language Processing
Кластеризация это производное от группирования на основе общих свойств. Какие саойства важны и насколько, определяется постановкой задачи, а также свойствами коллекции. Сначала надо уточнить задачу, абстрактной кластеризации нет, т.к. тогда нет критерия
источник

A

Anthony in Natural Language Processing
Oleg Mosalov
1. Что именно Вы кластеризируеете, какие-то эмбеддинги?
2. Какой процент "плохих" текстов, от коротых остается одно-два слова? Сколько слов в среднем в остается в "хороших" текстах?
3. Смотрели ли на латентное размещение Дирихле?
1. У меня пул комментов около 45к. Их обрабатываю, потом запихиваю в TfidfVectorizer, а матрицы в KMeans.fit(), потом predict.
2. Есть статистика по 13к сообщениям, в кластер с 1-2 словами всего 244 документов
3. К сожалению, не знаю что это такое. Я самоучка
источник

A

Anthony in Natural Language Processing
Борис Добров
Кластеризация это производное от группирования на основе общих свойств. Какие саойства важны и насколько, определяется постановкой задачи, а также свойствами коллекции. Сначала надо уточнить задачу, абстрактной кластеризации нет, т.к. тогда нет критерия
Да, меня попросили знакомые аналитики сделать им модель кластеризации. Простой фит предикт в целом неплохо работает. Есть слова, которые не характерезуют кластер, но записывает их в ключевые, есть пересекающиеся слова, по которым можно объеденить группу сообщений. Вот последнее не знаю, как можно сделать. Гуглю, но пока нахожу просто обучения кластеризации в общих словах
источник

OM

Oleg Mosalov in Natural Language Processing
Посмотрите латентное размещение Дирихле, мне кажется, Вы рискуете его переизобрести.
источник

A

Anthony in Natural Language Processing
Oleg Mosalov
Посмотрите латентное размещение Дирихле, мне кажется, Вы рискуете его переизобрести.
Хорошо, спасибо )
источник

БД

Борис Добров... in Natural Language Processing
В целом, обработка коротких текстов более сложна.
Опять таки стоит посмотреть на данные и понять, а чего хочется.
Часто комментарии беспредметные, но эмоции. Такие в отдельные группы. Иногда комментарий можно рпссмптривать как продолжение основного повода или предыдущего комментария. Типа пропущено, " а по поводу этого я скажу", "вы сказали вот так, а вот мой ответ".

Тогда короткие тексты аугиентируются в более длинные и м.б. удастся что то выжать из языковых моделей.
источник

A

Anthony in Natural Language Processing
Борис Добров
В целом, обработка коротких текстов более сложна.
Опять таки стоит посмотреть на данные и понять, а чего хочется.
Часто комментарии беспредметные, но эмоции. Такие в отдельные группы. Иногда комментарий можно рпссмптривать как продолжение основного повода или предыдущего комментария. Типа пропущено, " а по поводу этого я скажу", "вы сказали вот так, а вот мой ответ".

Тогда короткие тексты аугиентируются в более длинные и м.б. удастся что то выжать из языковых моделей.
Мои сообщения по сути это обращения по продукту. Иногда там письма, иногда запись разговора оператора, иногда это комментарий оператора, иногда переписка с чатботом.
источник

БД

Борис Добров... in Natural Language Processing
Чем тут на практике могут помочь LDA  и т.п. - мне сомнительно.
Что то всегда получится, но очень редко, когда это удастся разумно интерпретировать.
Нужно понять, что все таки хочется
источник