Вот смотри, есть SSE - это штук 50 разных инструкций (плюс ещё 50 штук в каждой новой итерации).
Для исполнения такой инструкции задействованы:
1. Аналоговая часть (формируются сигналы таймера для сихронизации работы процессора и памяти)
2. Часть сформированая програмно (цепи, которые декодируют инструкции, цепи которые выполняют микрокод)
3. Микрокод для инструкций SSE сравнительно простой, он просто задействует сначала шину памяти (делая чтение от 64 бит до 512 бит за раз). Затем эти 64-512 бит после чтения сразу попадают во временные регистры всех АЛУ процессора - это первая микрооперация.
4. АЛУ формирует результат вычислений, этот процесс происходит так как ты это знаешь - слева биты попадают на гейты, справа они выпадают из гейтов уже как результат
5. Вторая микрооперация производит чтение из регистров на выходе АЛУ и формирует запись в память
6. На этом этапе выполнение инструкции закончилось. Далее работают цепи которые обрабатывают очередь из записей в память (и чтений тоже) - они уже направляют эти данные в память или в кэш.