Народ, столкнулся тут с интересной темой. В интернете пишут что деление процессор выполняет на порядок медленнее чем умножение (плюс float alu-модулей обычно меньше чем целочисленных а значит будут stalls то есть процессоры будут ждать или хуже параллелить инструкции в своем out-of-order выполнении) Но что если мне нужно получить не все то 64-битное флоатное число а только первые 8 бит результата деления одного целого числа на второе? Я уверен тут можно сильно ускорить с помощью какого-то кастомного деления в столбик когда мы получаем только первые 8 бит (скорее всего это несколько шифтов с промежуточными инкрементами) Никто не встречал случайно подобный алгоритм?
Деление действительно одна из самых медленных операций, но если делитель константа, то деление очень быстрое, компилятор превращает такое деление в две или три операции (например умножение и сдвиг)