Телеграмм чат группы natural_language

А я может пропустил, как с gpt3 снять эмбединг? Ну то есть подал на вход текст- на выход вектор этого текста. С какого слоя снимать?

А зачем?
GPT-подобные модели вроде не очень предназначены для этого)

18:45пожаловаться #1

DD

А я может пропустил, как с gpt3 снять эмбединг? Ну то есть подал на вход текст- на выход вектор этого текста. С какого слоя снимать?

Если хочется получить контекстный вектор для каждого слова по отдельности, лучше брать BERT-подобные модели.
Если хочется единый вектор для всего текста, надо брать специальные sentence encoder'ы - например, какую-нибудь модельку из sentence-transformers, или universal sentence encoder, или Laser. Впрочем, насколько я знаю, ни одна из них не предназначалась для длинных текстов.

18:47пожаловаться #2

SS

David Dale

А зачем?
GPT-подобные модели вроде не очень предназначены для этого)

Хочется поэкспериментировать с вектором предложения. Для русского текста разве есть что-то в laser?

Sebastian Pereira in Natural Language Processing

18:49пожаловаться #3

SP

Хочется поэкспериментировать с вектором предложения. Для русского текста разве есть что-то в laser?

Да

18:49пожаловаться #4

SS

David Dale

А зачем?
GPT-подобные модели вроде не очень предназначены для этого)

Опять же, сетка это так и так делает.

18:49пожаловаться #5

DD

Хочется поэкспериментировать с вектором предложения. Для русского текста разве есть что-то в laser?

И laser, и use мультиязычные, и там русский - один из поддерживаемых языков.

18:50пожаловаться #6

SS

Sebastian Pereira

Да

Черт, пропустил. Есть русские модели для laser? Какую порекомендуете?

18:50пожаловаться #7

SS

Все, пошел изучать

18:50пожаловаться #8

DD

Опять же, сетка это так и так делает.

Неверно. GPT ни в одном месте не делает единое векторное представление для всего текста сразу. Вместо этого она обращает внимание на отдельные слова - на каждом шаге генерации на разные. В этом, собственно, её и сила)

18:51пожаловаться #9

DD

https://github.com/yannvgn/laserembeddings

Черт, пропустил. Есть русские модели для laser? Какую порекомендуете?

GitHub

yannvgn/laserembeddings

LASER multilingual sentence embeddings as a pip package - yannvgn/laserembeddings

18:51пожаловаться #10

2021 February 15

A

Всем привет! Сейчас учусь кластеризировать тексты и такой вопрос:
1. у меня KMeans выделяет одинаковые ключевые слова в разных кластерах, можно ли как-то их объеденить или из одного кластера исключать определенные слова?
2. После обработки текстов (удаление стоп слов, нормализации и проч) в некоторых текстах остается одно-два слова. И эти тексты выделяются в отдельных кластер. Такие тексты на практике отбоасываются или к ним есть какой-то подход? Интересно, как профи подходят к решению

Oleg Mosalov in Natural Language Processing

15:18пожаловаться #11

OM

Anthony

Всем привет! Сейчас учусь кластеризировать тексты и такой вопрос:
1. у меня KMeans выделяет одинаковые ключевые слова в разных кластерах, можно ли как-то их объеденить или из одного кластера исключать определенные слова?
2. После обработки текстов (удаление стоп слов, нормализации и проч) в некоторых текстах остается одно-два слова. И эти тексты выделяются в отдельных кластер. Такие тексты на практике отбоасываются или к ним есть какой-то подход? Интересно, как профи подходят к решению

1. Что именно Вы кластеризируеете, какие-то эмбеддинги?
2. Какой процент "плохих" текстов, от коротых остается одно-два слова? Сколько слов в среднем в остается в "хороших" текстах?
3. Смотрели ли на латентное размещение Дирихле?

15:26пожаловаться #12

БД

Борис Добров... in Natural Language Processing

Кластеризация это производное от группирования на основе общих свойств. Какие саойства важны и насколько, определяется постановкой задачи, а также свойствами коллекции. Сначала надо уточнить задачу, абстрактной кластеризации нет, т.к. тогда нет критерия

15:37пожаловаться #13

A

Oleg Mosalov

1. Что именно Вы кластеризируеете, какие-то эмбеддинги?
2. Какой процент "плохих" текстов, от коротых остается одно-два слова? Сколько слов в среднем в остается в "хороших" текстах?
3. Смотрели ли на латентное размещение Дирихле?

1. У меня пул комментов около 45к. Их обрабатываю, потом запихиваю в TfidfVectorizer, а матрицы в KMeans.fit(), потом predict.
2. Есть статистика по 13к сообщениям, в кластер с 1-2 словами всего 244 документов
3. К сожалению, не знаю что это такое. Я самоучка

15:37пожаловаться #14

A

Борис Добров

Кластеризация это производное от группирования на основе общих свойств. Какие саойства важны и насколько, определяется постановкой задачи, а также свойствами коллекции. Сначала надо уточнить задачу, абстрактной кластеризации нет, т.к. тогда нет критерия

Да, меня попросили знакомые аналитики сделать им модель кластеризации. Простой фит предикт в целом неплохо работает. Есть слова, которые не характерезуют кластер, но записывает их в ключевые, есть пересекающиеся слова, по которым можно объеденить группу сообщений. Вот последнее не знаю, как можно сделать. Гуглю, но пока нахожу просто обучения кластеризации в общих словах

Oleg Mosalov in Natural Language Processing

15:41пожаловаться #15

OM

Посмотрите латентное размещение Дирихле, мне кажется, Вы рискуете его переизобрести.

15:41пожаловаться #16

A

Oleg Mosalov

Посмотрите латентное размещение Дирихле, мне кажется, Вы рискуете его переизобрести.

Хорошо, спасибо )

15:43пожаловаться #17

БД

Борис Добров... in Natural Language Processing

В целом, обработка коротких текстов более сложна.
Опять таки стоит посмотреть на данные и понять, а чего хочется.
Часто комментарии беспредметные, но эмоции. Такие в отдельные группы. Иногда комментарий можно рпссмптривать как продолжение основного повода или предыдущего комментария. Типа пропущено, " а по поводу этого я скажу", "вы сказали вот так, а вот мой ответ".

Тогда короткие тексты аугиентируются в более длинные и м.б. удастся что то выжать из языковых моделей.

15:43пожаловаться #18

A

Борис Добров

В целом, обработка коротких текстов более сложна.
Опять таки стоит посмотреть на данные и понять, а чего хочется.
Часто комментарии беспредметные, но эмоции. Такие в отдельные группы. Иногда комментарий можно рпссмптривать как продолжение основного повода или предыдущего комментария. Типа пропущено, " а по поводу этого я скажу", "вы сказали вот так, а вот мой ответ".

Тогда короткие тексты аугиентируются в более длинные и м.б. удастся что то выжать из языковых моделей.

Мои сообщения по сути это обращения по продукту. Иногда там письма, иногда запись разговора оператора, иногда это комментарий оператора, иногда переписка с чатботом.

15:45пожаловаться #19

БД

Борис Добров... in Natural Language Processing

Чем тут на практике могут помочь LDA и т.п. - мне сомнительно.
Что то всегда получится, но очень редко, когда это удастся разумно интерпретировать.
Нужно понять, что все таки хочется