Прочитав по диагонали tutorial, я нашёл не "искусственно созданный текст", а Wikitext-2 - набор текстов из Википедии. Картинки с набором букв там только для иллюстрации.
А "трансформерами" называют не только seq2seq модель из "attention is all you need", состоявшую действительно из энкодера и декодера, но и модели, состоящие только из энкодера (типа BERT) или только из декодера (типа GPT). И термин "трансформер" означает только то, что вся связь между токенами осуществляется исключительно за счёт механизма внимания.
Благодарю! А я лишь на код внимание обратил... То есть, если, явно или нет, имеются те самые Q,K, V, то сеть уже можно назвать трансформером?