Например, если посмотреть профиль исполнения того же gcc, то там каждая процедура не работает более 5% времени (кажется меньше 2%). И там не важно как хорошо ты умеешь исполнять отдельный цикл, там другие вещи нужно уметь хорошо исполнять. Тут, конечно, OoO архитектуры лучше себя показывают