Телеграмм чат группы natural_language_processing страница 1010

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Natural Language Processing

2362 membersпожаловаться на группу

2021 January 15

9

9dogs🐍 in Natural Language Processing

А можно ли попробовать использовать в тематическом моделирование векторные представления текстов, полученные с помощью bert и ей подобных?

недавно тут проскакивало: https://maartengr.github.io/BERTopic/

maartengr.github.io

Home - BERTopic

Leveraging BERT and a class-based TF-IDF to create easily interpretable topics.

источник

10:32пожаловаться #1

SМ

SancheZz Мов in Natural Language Processing

недавно тут проскакивало: https://maartengr.github.io/BERTopic/

maartengr.github.io

Home - BERTopic

Leveraging BERT and a class-based TF-IDF to create easily interpretable topics.

Да это изян способ сам его использую

источник

11:03пожаловаться #2

МП

Михаил Притугин... in Natural Language Processing

Подскажите, как решать задачу. Где начать копать.
Легче объяснить на примере, как понять, что:
"След подарок тебе" -> "Следующий подарок тебе"

источник

21:49пожаловаться #3

МП

Михаил Притугин... in Natural Language Processing

Такое "сокращение" является словом, которое существует

источник

21:50пожаловаться #4

AP

Arsen Plus in Natural Language Processing

Доброй ночи!

Есть размеченный датасет: жалобы и предложения клиентов -> ключевые слова из жалобы (чего в сервисе не хватает, что лишнее, что работает плохо), тексты достаточно короткие (1-4 предложения, в редких случаях больше), выжимка - 1-6 слов. Всего примеров около 10-12к. Нужно научиться составлять выжимку для новых примеров. Думал попробовать решить эту задачу с помощью seq2seq-моделирования. Подскажите, пожалуйста:

1) есть ли какие-то предобученные модели суммаризации, которые можно пофайнтюнить под эту задачу?
2) достаточно ли на ваш взгляд такого объема обучающей выборки для получения вменяемого качества?

Спасибо!

источник

23:50пожаловаться #5

2021 January 16

E

Elena in Natural Language Processing

Михаил Притугин

Подскажите, как решать задачу. Где начать копать.
Легче объяснить на примере, как понять, что:
"След подарок тебе" -> "Следующий подарок тебе"

Интересный вопрос. А для какой цели эта задача?

источник

00:15пожаловаться #6

E

Elena in Natural Language Processing

Arsen Plus

Доброй ночи!

Есть размеченный датасет: жалобы и предложения клиентов -> ключевые слова из жалобы (чего в сервисе не хватает, что лишнее, что работает плохо), тексты достаточно короткие (1-4 предложения, в редких случаях больше), выжимка - 1-6 слов. Всего примеров около 10-12к. Нужно научиться составлять выжимку для новых примеров. Думал попробовать решить эту задачу с помощью seq2seq-моделирования. Подскажите, пожалуйста:

1) есть ли какие-то предобученные модели суммаризации, которые можно пофайнтюнить под эту задачу?
2) достаточно ли на ваш взгляд такого объема обучающей выборки для получения вменяемого качества?

Спасибо!

можно попробовать bert2bert в Huggingface, если нет предобученных моделей для русского

источник

00:17пожаловаться #7

E

Elena in Natural Language Processing

корпус 12к не очень большой, мне кажется, для файнтюнинга надо побольше. Я делала суммаризацию на 40 тыс, ну так, видно, что надо бы еще. Однако зависит насколько у вас разнообразная "декодируемая" часть. Повторяются ли эти ключевые слова? или каждый экземпляр уникальное сочетание слов?

источник

00:21пожаловаться #8

AP

Arsen Plus in Natural Language Processing

можно попробовать bert2bert в Huggingface, если нет предобученных моделей для русского

Большое спасибо!

Ключевые слова относятся к одной тематике и точно должны повторяться. Как часто повторяются и сколько всего уникальных слов имеется - мне пока не известно, так как датасет в стадии разметки. Надежду вселяет то, что это все же задача extractive summary - быть может, она менее требовательна к объему выборки. Думаю взять bert2bert и натравить ее в начале на датасет с русскими новостями, а уже с полученными весами приступить непосредственно к задаче. Конечно, тут будет разная длина и кодируемой, и декодируемой части, но мне кажется, это лучше, чем "холодный" старт с мультиязычной моделью

источник

00:29пожаловаться #9

E

Elena in Natural Language Processing

так есть же русская BERT? разве нет?

источник

00:30пожаловаться #10

AP

Arsen Plus in Natural Language Processing

Есть, но хотелось сэкономить и использовать что-то помельче, Distilbert, например. Она вроде только мультиязычная есть

источник

00:36пожаловаться #11

SP

Sebastian Pereira in Natural Language Processing

Arsen Plus

Есть, но хотелось сэкономить и использовать что-то помельче, Distilbert, например. Она вроде только мультиязычная есть

Не уверен, что если задача это решение в «прод» то Bert + поможет, лучше посмотрите разные lda варианты - они по метрикам почти не отличимые варианты демонстрируют (на практике можете добиться лучших результатов)

источник

07:26пожаловаться #12

SP

Sebastian Pereira in Natural Language Processing

Но намного быстрей

источник

07:26пожаловаться #13

IS

I Sh in Natural Language Processing

корпус 12к не очень большой, мне кажется, для файнтюнинга надо побольше. Я делала суммаризацию на 40 тыс, ну так, видно, что надо бы еще. Однако зависит насколько у вас разнообразная "декодируемая" часть. Повторяются ли эти ключевые слова? или каждый экземпляр уникальное сочетание слов?

Привет!

А не могли бы вы чуть подробнее рассказать про суммаризацию? Какой язык? Какой домен? Какой размер корпуса? Какая архитектура? Может, какие-то ваши советы, исходя из полученного опыта...

источник

10:26пожаловаться #14

E

Elena in Natural Language Processing

Привет!

А не могли бы вы чуть подробнее рассказать про суммаризацию? Какой язык? Какой домен? Какой размер корпуса? Какая архитектура? Может, какие-то ваши советы, исходя из полученного опыта...

Корпус новости и подводки к ним, где подводка это summary. Язык баскский. Было около 80 тысяч новостей сырых, после обработки и фильтрации осталось около 40 тысяч. Для баскского нет предобученных моделей абстрактной суммаризации. Я попробовала BART английский, он практически не работает. Потом взяла bert2bert с баскской BERt

источник

11:28пожаловаться #15

IS

I Sh in Natural Language Processing

Спасибо) А по качеству как? Зацикливания на одном слове бывают?

источник

11:29пожаловаться #16

ЕТ

Евгений Томилов... in Natural Language Processing

Направьте меня, пожалуйста, существуют ли векторизаторы, которым важен порядок слов в контексте вокруг слова?

источник

12:50пожаловаться #17

DD

David Dale in Natural Language Processing

Евгений Томилов

Направьте меня, пожалуйста, существуют ли векторизаторы, которым важен порядок слов в контексте вокруг слова?

ELMO, BERT и все их наследники вполне осведомлены о порядке слов.

источник

12:53пожаловаться #18

E

Elena in Natural Language Processing

Спасибо) А по качеству как? Зацикливания на одном слове бывают?

Бывает, что повторяет два раза одну и ту же фразу. Rouge 18-19

источник

13:08пожаловаться #19

IS

I Sh in Natural Language Processing

Бывает, что повторяет два раза одну и ту же фразу. Rouge 18-19

О! Хорошие результаты, спасибо)) Я как-то игрался со средней mT5 для русского, у меня ничего путного не вышло))

источник

13:10пожаловаться #20