Ну, я даже больше скажу. Банальное увеличение числа ядер тоже давно не работает :)
Кстати, в кровавом энтерпрайзе, по ощущениям, основное время тратится не на процессор, а на IO. Причём из-за неоптимизированности запросов.
Классический пример - большая система, обрабатывающая громадное количество одинаковых объектов, запрашивает одинаковые данные для них не пачками, а по одному. И все всё понимают, но там стек вызовов занимает 8 экранов, причём половина - объективно по делу (разные форматы и т.д.). То есть, невозможно просто переработать архитектуру так, чтобы происходило кеширование.
А даже если и переработать, то года через 3-4 изменятся условия, и пакетировать придётся что-то другое. То есть, это какая-та классическая задача по оптимизации dataflow. Но чего-то тут не хватает даже в каком-нибудь Хаскеле. Собственно, Хаскель тут при том, что в нём есть rewriting rules.