Ну понятно, но она ж с этой системой научилась додумывать картинки умнее любой другой сети которая создавалась для картинок. Надо ебашить её на все остальные задачи и смотреть что сможет. А потом потенциально можно будет связывать несколько трансформеров между собой воедино, зрение/слух/понимание речи, и появится та самая модальность)
трасформер хорошая модель, да, я тоже ими пользуюсь, их можно рассматривать как умные конволюции, которые могут учить форму фильтров вместо кучи 3x3 как в картико-моделях