Согласитесь, что при обучении трансформера на MLM мы подаем данные seq2seq?
Вообще не обязательно.
seq2seq - это генерация по входной последовательности Х выходной последовательности У, причем так, что их длины и порядок не связаны. Например, перевод с одного языка на другой.
Некоторые модели-трансформеры с MLM задачей так и работают, например T5. Но другие трансформеры с MLM (например, BERT) организованы более просто - они выдают по одному предсказанию для каждого элемента Х. То есть да, на входе тоже получается последовательность У, но она в точности той же длины, что и Х, и в том же порядке.