Проблема нынешней архитектуры в том, что скорость шины данных в тысячи раз медленее чем может обрабатывать процессор, поэтому он только и делает что спекулятивные вычисления делает да играет в ностардамуса пытаясь предсказывать ветвления. И если брать скорость самих процессоров то да, они уже упираются в пределы техпроцесса (несколько нанометров), оптимизация конвеера и декодера уже тоже близка к оптимальному, колличество ядер уже скоро будет столько же сколько в мобильных GPU а вот шина данных как была так и остается узким горлышком.
Возможно что это поменяется к лучшему с приходом Compute Express Link (CXL). А возможно нет