Телеграмм чат группы natural_language

Добрый вечер! Помогите, пожалуйста... Я правильно понимаю, что в этом руководстве: https://pytorch.org/tutorials/beginner/transformer_tutorial.html решается задача генерации текста на искусственно созданном тексте? И почему здесь есть только блок энкодера, ведь трансформер включает ещё и декодер?

источник

17:50пожаловаться #7

DD

David Dale in Natural Language Processing

Krep Kospit

Добрый вечер! Помогите, пожалуйста... Я правильно понимаю, что в этом руководстве: https://pytorch.org/tutorials/beginner/transformer_tutorial.html решается задача генерации текста на искусственно созданном тексте? И почему здесь есть только блок энкодера, ведь трансформер включает ещё и декодер?

Прочитав по диагонали tutorial, я нашёл не "искусственно созданный текст", а Wikitext-2 - набор текстов из Википедии. Картинки с набором букв там только для иллюстрации.

А "трансформерами" называют не только seq2seq модель из "attention is all you need", состоявшую действительно из энкодера и декодера, но и модели, состоящие только из энкодера (типа BERT) или только из декодера (типа GPT). И термин "трансформер" означает только то, что вся связь между токенами осуществляется исключительно за счёт механизма внимания.

источник

18:04пожаловаться #8

KK

Krep Kospit in Natural Language Processing

David Dale

Прочитав по диагонали tutorial, я нашёл не "искусственно созданный текст", а Wikitext-2 - набор текстов из Википедии. Картинки с набором букв там только для иллюстрации.

А "трансформерами" называют не только seq2seq модель из "attention is all you need", состоявшую действительно из энкодера и декодера, но и модели, состоящие только из энкодера (типа BERT) или только из декодера (типа GPT). И термин "трансформер" означает только то, что вся связь между токенами осуществляется исключительно за счёт механизма внимания.

Благодарю! А я лишь на код внимание обратил... То есть, если, явно или нет, имеются те самые Q,K, V, то сеть уже можно назвать трансформером?

источник

18:29пожаловаться #9

DD

David Dale in Natural Language Processing

Krep Kospit

Благодарю! А я лишь на код внимание обратил... То есть, если, явно или нет, имеются те самые Q,K, V, то сеть уже можно назвать трансформером?

Ну почти.
Фишка трансформеров в том, что QKV - единственный способ связи токенов. Attention исходно появился как вспомогательный костыль к рекуррентным сеткам, а трансформеры как явление появились после статьи attention is all you need, где рекуррентность выпилили и стало только лучше)

источник

19:01пожаловаться #10

SМ

SancheZz Мов in Natural Language Processing

Но чтобы далеко не ходить добавили позиционирование

источник

19:07пожаловаться #11

SМ

SancheZz Мов in Natural Language Processing

В виде position tokens

источник

19:07пожаловаться #12