Телеграмм чат группы natural_language

Вообще не обязательно.
seq2seq - это генерация по входной последовательности Х выходной последовательности У, причем так, что их длины и порядок не связаны. Например, перевод с одного языка на другой.

Некоторые модели-трансформеры с MLM задачей так и работают, например T5. Но другие трансформеры с MLM (например, BERT) организованы более просто - они выдают по одному предсказанию для каждого элемента Х. То есть да, на входе тоже получается последовательность У, но она в точности той же длины, что и Х, и в том же порядке.

источник

12:03пожаловаться #12

SМ

SancheZz Мов in Natural Language Processing

David Dale

Вообще не обязательно.
seq2seq - это генерация по входной последовательности Х выходной последовательности У, причем так, что их длины и порядок не связаны. Например, перевод с одного языка на другой.

Некоторые модели-трансформеры с MLM задачей так и работают, например T5. Но другие трансформеры с MLM (например, BERT) организованы более просто - они выдают по одному предсказанию для каждого элемента Х. То есть да, на входе тоже получается последовательность У, но она в точности той же длины, что и Х, и в том же порядке.

Дык всеравно seq2seq

источник

12:11пожаловаться #13

SМ

SancheZz Мов in Natural Language Processing

Про длинну и последовательность это уже разные механизмы

источник

12:12пожаловаться #14

SМ

SancheZz Мов in Natural Language Processing

David Dale

Вообще не обязательно.
seq2seq - это генерация по входной последовательности Х выходной последовательности У, причем так, что их длины и порядок не связаны. Например, перевод с одного языка на другой.

Некоторые модели-трансформеры с MLM задачей так и работают, например T5. Но другие трансформеры с MLM (например, BERT) организованы более просто - они выдают по одному предсказанию для каждого элемента Х. То есть да, на входе тоже получается последовательность У, но она в точности той же длины, что и Х, и в том же порядке.

Но замечание важное, тк тут описаны тонкости в позиционирование

источник

12:14пожаловаться #15

KK

Krep Kospit in Natural Language Processing

А такой вопрос: прочитал, что one-hot кодирование уже неактуально, т.к. есть во фреймворках Embedding - слои. И можно не заниматься созданием гигантских таблиц, а, скажем, пронумеровать все уникальные слова или символы. Это так?

источник

14:13пожаловаться #16

A

Aragaer in Natural Language Processing

это примерно то же самое, нет?

источник

14:21пожаловаться #17

KK

Krep Kospit in Natural Language Processing

Я не уверен. Либо one-hot таблица 5000 * 5000 слов-векторов, либо вектор 5000 идентификаторов слов

источник

14:23пожаловаться #18