对于简单的数学运算,例如sqrt(2),,,,,1 / 2等等, CPU 是否包含某种硬件表,其中包含这些运算的结果,因此它们实际上不是“1 + 1计算”的,而是从某种字典或“数学缓存”中获取的,以便更快地处理?当然,我预计有些人会问“谁来定义什么是‘简单’数学运算?”,但我只是很好奇。10^21 * 0tan(45)

2

  • 有些 CPU 确实对某些指令使用硬编码查找表(而非缓存);臭名昭著的就是由此引起的。唯一的(可变)缓存通常用于内存,而 TLB 则特别用于虚拟地址转换。


    – 

  • @o11c:其他类似缓存的东西(涉及基于近期历史的 SRAM 阵列)包括分支预测器,尤其是用于预测地址的分支历史表。以及用于内存消歧的动态预测器(加载是否重新加载地址未知的近期存储,或者是否应该推测性地从缓存中读取,并且如果较旧的存储与其重叠则必须回滚。blog.stuffedcow.net/2014/01/x86-memory-


    – 



最佳答案
1

不,如果重复值很常见,则由软件来实现缓存。

我从未听说过任何 CPU 会缓存计算指令的结果,即使是像浮点除法或平方根或整数除法这样较慢的指令。(尽管在最新的 CPU 上,这些指令也没有那么慢,比如idiv r32Zen 4 上的 9 个周期延迟和 6 个周期吞吐量)。即使是 x86 性能核心和 Apple M1 系列等具有大量晶体管预算的“大型”CPU 也不会这样做。

缓存会占用一些芯片面积,并且需要额外的电力来检查和更新缓存,如果缓存几乎每次操作都失败,则没有任何好处。这种情况很常见,因为很多用例处理非冗余数据。

花费晶体管和功率预算来为所有操作提供更好的吞吐量更有意义,这就是真正的高性能 CPU 所做的:用于常见操作(如 (SIMD) FP mul 或 FMA)的多个执行管道,每个执行管道都可以在每个时钟周期启动一个新操作。


对于任何更简单的操作,例如 FP 或整数加/减或乘法,缓存实际上都会适得其反。这些操作具有不依赖于数据的短延迟,因此无序执行的调度程序知道它们将在哪个时钟周期产生结果。从而可以避免写回冲突。例如,如果您在 2 个周期前启动了 3 个周期延迟的整数乘法,则将 1 个周期的整数加法发送到该执行端口将导致两个结果在下一个周期就绪,但通常只有一组线路可以将结果从该执行端口上的 ALU 传送到它们需要去的地方(寄存器文件和旁路转发网络)。请参阅微架构指南的 Sandybridge 部分中有关标准化 uop 延迟的部分,这节省了调度程序的功耗。(后来的英特尔 uarches 又添加了具有更多不同延迟的 uops。)

乘法器非常耗电(因为许多门都在切换),但除非您牺牲缓存未命中情况的延迟,否则您无法节省电量。为了保持较低的延迟,硬件将并行启动乘法,同时检查其最近操作数的缓存。(对于 64×64 -> 64 位乘法,它将具有 128 位标签和 64 位数据。因此,并行比较器必须比加载/存储单元宽得多。)命中后,您可以在 1 或 2 个周期后产生输出,而不是通常的 3 到 5 个周期。

整数加法通常已经具有 1 个周期延迟,并且每个时钟的吞吐量很高。(例如,最近的 Intel 和 AMD 每时钟 4 个)。也可以进行 SIMD 矢量化以实现高吞吐量计算,uint32_t每条指令执行 8 次加法(x86 带有 AVX2),每时钟最多执行 3 次。因此,如果您要为这些操作设置缓存,则需要一个具有 24 个读取端口的缓存!!(或在每个执行单元中设置单独的小缓存)。SIMD 整数和 FP 乘法的吞吐量也相当高,例如每时钟 2 条指令,延迟为 4 或 5 个周期。

即使在缓存命中的情况下,执行整数加法也比检查缓存更便宜,尤其是使用 SIMD 时,只需一次指令(或微操作)通过管道即可并行执行多个加法。

当然,我预计有些人会问“谁来定义什么是‘简单’的数学运算?

当然,CPU 可以在一条 asm 指令中完成这一操作。即使指令序列是连续的,丢弃整个指令序列的可能性似乎也更小,而且尝试识别重复的计算模式所需的功率更大。中间结果可能会留在寄存器中,这些寄存器在被覆盖之前也会被读取,在这种情况下,这些输出也是需要缓存的可见副作用。

最有用的情况是慢速 x87 指令,例如fsincosand (可能用于poworlog函数)。但 x87 几乎已经过时,大多数软件都不使用。egfsincos在 Ice Lake 上被微编码为 60-120 uops。

大多数 CPU 没有指数运算指令,尽管x^2CPU 本身只支持单次乘法。

3

  • 1
    考虑了值局部性的概念,因此,过去曾考虑过值缓存和硬件记忆。从模糊的记忆中,20 世纪 90 年代中期到 21 世纪初。我能找到的唯一一篇关于 double 的论文(当时只是草稿):Daniel Citron 和 Dror G. Feitelson,《数学和三角函数的硬件记忆》。2000 年 3 月 26 日,31 页。作者声称性能提升高达 10%。


    – 


  • 387 数学协处理器不是有某种正弦/余弦表吗?我隐约记得有类似的东西。对吗?


    – 

  • 2
    @alfC 387 数学协处理器使用 CORDIC 和有理近似的组合来计算超越函数。CORDIC 显然是基于表的,但这些基于 ROM 的表并不是 OP 所考虑的那种值缓存/硬件记忆。


    –