Size: a a a

Natural Language Processing

2021 January 15

9

9dogs🐍 in Natural Language Processing
Kutuz4
А можно ли попробовать использовать в тематическом моделирование векторные представления текстов, полученные с помощью bert и ей подобных?
недавно тут проскакивало: https://maartengr.github.io/BERTopic/
источник

SancheZz Мов in Natural Language Processing
Да это изян способ сам его использую
источник

МП

Михаил Притугин... in Natural Language Processing
Подскажите, как решать задачу. Где начать копать.
Легче объяснить на примере, как понять, что:
"След подарок тебе" -> "Следующий подарок тебе"
источник

МП

Михаил Притугин... in Natural Language Processing
Такое "сокращение" является словом, которое существует
источник

AP

Arsen Plus in Natural Language Processing
Доброй ночи!

Есть размеченный датасет: жалобы и предложения клиентов -> ключевые слова из жалобы (чего в сервисе не хватает, что лишнее, что работает плохо), тексты достаточно короткие (1-4 предложения, в редких случаях больше), выжимка - 1-6 слов. Всего примеров около 10-12к. Нужно научиться составлять выжимку для новых примеров. Думал попробовать решить эту задачу с помощью seq2seq-моделирования. Подскажите, пожалуйста:

1) есть ли какие-то предобученные модели суммаризации, которые можно пофайнтюнить под эту задачу?
2) достаточно ли на ваш взгляд такого объема обучающей выборки для получения вменяемого качества?

Спасибо!
источник
2021 January 16

E

Elena in Natural Language Processing
Михаил Притугин
Подскажите, как решать задачу. Где начать копать.
Легче объяснить на примере, как понять, что:
"След подарок тебе" -> "Следующий подарок тебе"
Интересный вопрос. А для какой цели эта задача?
источник

E

Elena in Natural Language Processing
Arsen Plus
Доброй ночи!

Есть размеченный датасет: жалобы и предложения клиентов -> ключевые слова из жалобы (чего в сервисе не хватает, что лишнее, что работает плохо), тексты достаточно короткие (1-4 предложения, в редких случаях больше), выжимка - 1-6 слов. Всего примеров около 10-12к. Нужно научиться составлять выжимку для новых примеров. Думал попробовать решить эту задачу с помощью seq2seq-моделирования. Подскажите, пожалуйста:

1) есть ли какие-то предобученные модели суммаризации, которые можно пофайнтюнить под эту задачу?
2) достаточно ли на ваш взгляд такого объема обучающей выборки для получения вменяемого качества?

Спасибо!
можно попробовать bert2bert в Huggingface, если нет предобученных моделей для русского
источник

E

Elena in Natural Language Processing
корпус 12к не очень большой, мне кажется, для файнтюнинга надо побольше. Я делала суммаризацию на 40 тыс, ну так, видно, что  надо бы еще. Однако зависит насколько у вас разнообразная "декодируемая" часть. Повторяются ли эти ключевые слова? или каждый экземпляр уникальное сочетание слов?
источник

AP

Arsen Plus in Natural Language Processing
Elena
можно попробовать bert2bert в Huggingface, если нет предобученных моделей для русского
Большое спасибо!

Ключевые слова относятся к одной тематике и точно должны повторяться. Как часто повторяются и сколько всего уникальных слов имеется - мне пока не известно, так как датасет в стадии разметки. Надежду вселяет то, что это все же задача extractive summary - быть может, она менее требовательна к объему выборки. Думаю взять bert2bert и натравить ее в начале на датасет с русскими новостями, а уже с полученными весами приступить непосредственно к задаче. Конечно, тут будет разная длина и кодируемой, и декодируемой части, но мне кажется, это лучше, чем "холодный" старт с мультиязычной моделью
источник

E

Elena in Natural Language Processing
так есть же русская BERT? разве нет?
источник

AP

Arsen Plus in Natural Language Processing
Есть, но хотелось сэкономить и использовать что-то помельче, Distilbert, например. Она вроде только мультиязычная есть
источник

SP

Sebastian Pereira in Natural Language Processing
Arsen Plus
Есть, но хотелось сэкономить и использовать что-то помельче, Distilbert, например. Она вроде только мультиязычная есть
Не уверен, что если задача это решение в «прод» то Bert + поможет, лучше посмотрите разные lda варианты - они по метрикам почти не отличимые варианты демонстрируют (на практике можете добиться лучших результатов)
источник

SP

Sebastian Pereira in Natural Language Processing
Но намного быстрей
источник

IS

I Sh in Natural Language Processing
Elena
корпус 12к не очень большой, мне кажется, для файнтюнинга надо побольше. Я делала суммаризацию на 40 тыс, ну так, видно, что  надо бы еще. Однако зависит насколько у вас разнообразная "декодируемая" часть. Повторяются ли эти ключевые слова? или каждый экземпляр уникальное сочетание слов?
Привет!

А не могли бы вы чуть подробнее рассказать про суммаризацию? Какой язык? Какой домен? Какой размер корпуса? Какая архитектура? Может, какие-то ваши советы, исходя из полученного опыта...
источник

E

Elena in Natural Language Processing
I Sh
Привет!

А не могли бы вы чуть подробнее рассказать про суммаризацию? Какой язык? Какой домен? Какой размер корпуса? Какая архитектура? Может, какие-то ваши советы, исходя из полученного опыта...
Корпус новости и подводки к ним, где подводка это summary. Язык баскский. Было около 80 тысяч новостей сырых, после обработки и фильтрации осталось около 40 тысяч. Для баскского нет предобученных моделей абстрактной  суммаризации. Я попробовала BART английский, он практически не работает. Потом взяла bert2bert с баскской BERt
источник

IS

I Sh in Natural Language Processing
Спасибо) А по качеству как? Зацикливания на одном слове бывают?
источник

ЕТ

Евгений Томилов... in Natural Language Processing
Направьте меня, пожалуйста, существуют ли векторизаторы, которым важен порядок слов в контексте вокруг слова?
источник

DD

David Dale in Natural Language Processing
Евгений Томилов
Направьте меня, пожалуйста, существуют ли векторизаторы, которым важен порядок слов в контексте вокруг слова?
ELMO, BERT и все их наследники вполне осведомлены о порядке слов.
источник

E

Elena in Natural Language Processing
I Sh
Спасибо) А по качеству как? Зацикливания на одном слове бывают?
Бывает, что повторяет два раза одну и ту же фразу. Rouge 18-19
источник

IS

I Sh in Natural Language Processing
Elena
Бывает, что повторяет два раза одну и ту же фразу. Rouge 18-19
О! Хорошие результаты, спасибо)) Я как-то игрался со средней mT5 для русского, у меня ничего путного не вышло))
источник