Size: a a a

Natural Language Processing

2020 December 26

AW

Alex Wortega in Natural Language Processing
Приветствую, кто нибудь занимался выделением в семантическом анализе экспрессивных комментов?
источник

KK

Krep Kospit in Natural Language Processing
SancheZz Мов
Ну вот ,это просто архитектура ,а seq2seq способ подачи
Аа. Вроде понял. Спасибо!
источник

GF

Grigory Frantsuzov in Natural Language Processing
Alex Wortega
Приветствую, кто нибудь занимался выделением в семантическом анализе экспрессивных комментов?
Надя Зуева вроде занималась
источник

SancheZz Мов in Natural Language Processing
Krep Kospit
Аа. Вроде понял. Спасибо!
источник

SancheZz Мов in Natural Language Processing
Цикл статей в переводе, но есть ссылки на оригинал
источник

SancheZz Мов in Natural Language Processing
Там грамотно поставленны переходы от базы seq2seq к сложному на базе seq2seq
источник

KK

Krep Kospit in Natural Language Processing
О! Зря я не искал на русском сразу...
источник

SancheZz Мов in Natural Language Processing
Mechanics of Seq2seq
источник

SancheZz Мов in Natural Language Processing
Даже красивее звучит как-то)
источник

SancheZz Мов in Natural Language Processing
Чем способ подачи
источник

SancheZz Мов in Natural Language Processing
Механики...
источник

DD

David Dale in Natural Language Processing
SancheZz Мов
Согласитесь, что при обучении трансформера на MLM мы подаем данные seq2seq?
Вообще не обязательно.
seq2seq - это генерация по входной последовательности Х выходной последовательности У, причем так, что их длины и порядок не связаны. Например, перевод с одного языка на другой.

Некоторые модели-трансформеры с MLM  задачей так и работают, например T5. Но другие трансформеры с MLM (например, BERT) организованы более просто - они выдают по одному предсказанию для каждого элемента Х. То есть да, на входе тоже получается последовательность У, но она в точности той же длины, что и Х, и в том же порядке.
источник

SancheZz Мов in Natural Language Processing
David Dale
Вообще не обязательно.
seq2seq - это генерация по входной последовательности Х выходной последовательности У, причем так, что их длины и порядок не связаны. Например, перевод с одного языка на другой.

Некоторые модели-трансформеры с MLM  задачей так и работают, например T5. Но другие трансформеры с MLM (например, BERT) организованы более просто - они выдают по одному предсказанию для каждого элемента Х. То есть да, на входе тоже получается последовательность У, но она в точности той же длины, что и Х, и в том же порядке.
Дык всеравно seq2seq
источник

SancheZz Мов in Natural Language Processing
Про длинну и последовательность это уже разные механизмы
источник

SancheZz Мов in Natural Language Processing
David Dale
Вообще не обязательно.
seq2seq - это генерация по входной последовательности Х выходной последовательности У, причем так, что их длины и порядок не связаны. Например, перевод с одного языка на другой.

Некоторые модели-трансформеры с MLM  задачей так и работают, например T5. Но другие трансформеры с MLM (например, BERT) организованы более просто - они выдают по одному предсказанию для каждого элемента Х. То есть да, на входе тоже получается последовательность У, но она в точности той же длины, что и Х, и в том же порядке.
Но замечание важное, тк тут описаны тонкости в позиционирование
источник

KK

Krep Kospit in Natural Language Processing
А такой вопрос: прочитал, что one-hot кодирование уже неактуально, т.к. есть во фреймворках Embedding - слои. И можно не заниматься созданием гигантских таблиц, а, скажем, пронумеровать все уникальные слова или символы. Это так?
источник

A

Aragaer in Natural Language Processing
это примерно то же самое, нет?
источник

KK

Krep Kospit in Natural Language Processing
Я не уверен. Либо one-hot таблица 5000 * 5000 слов-векторов, либо вектор 5000 идентификаторов слов
источник

DD

David Dale in Natural Language Processing
Aragaer
это примерно то же самое, нет?
Математически - примерно то же, вычислительно - эмбеддинги могут быть чуть эффективнее, т.к. огромные матрицы с почти одними нулями не создаются
источник

KK

Krep Kospit in Natural Language Processing
David Dale
Математически - примерно то же, вычислительно - эмбеддинги могут быть чуть эффективнее, т.к. огромные матрицы с почти одними нулями не создаются
Ага, то есть, дело в ресурсах?
источник