На мой взгляд, ключевое место проигрыша вливов не в размере инструкции, не в уровне параллелизма вычислений или в каких-то еще внешних причинах, а в том, что суперскалярный процессор способен адаптировать вычислительные ресурсы под конкретную задачу в конкретный момент времени используя реальный профиль исполнения (AOT vs JIT), когда как влив эту информацию никак не использует.
Совершенно верно. OoO-архитектуры примерно одинаково себя показывают на всем спектре выч. нагрузок. Поэтому они настолько важны в качестве GPP, для настольных вычислений.
Ну а in-order решения и, в частности, VLIW, сегодня переживают небывалый подъем в области специализированных вычислений. Начиная от manycore с GPU и заканчивая NPU, TPU и различными DSP.