да, но, например, первый слой вполне можно сказать выполняет тривиальную классификацию, почему бы не применить уже натринированный первый слой в более многослойной модели?
Потому что фишка в том что оно обучено на конкретных входах, а когда ты пришиваешь на вход в сетку данные, то ты соединяешь 2 сетки и вторая сетка может дообучиться