![]() |
1
0
Xeon E5 xxxx v2是常春藤桥核心,因此不支持FMA。看见 Agner Fog's microarch pdf 了解IvyBridge管道的详细信息。
如果您设法避免任何内存瓶颈
IvB可以维持每个时钟两个AVX矢量FP操作的吞吐量。执行端口1可以运行
因此:2.5G时钟/秒*2 FP矢量/时钟*8单精度元素/矢量 因此:单精度40GFlop/sec理论最大值,使用AVX 256b矢量。双精度:20GFlop/sec(每256b矢量4个DP元素)。 请注意,即使从一级缓存,IvB也只有128b个加载/存储数据路径,并且只能支持2个加载和一个存储 每2 256b矢量的时钟。 mul有5c延迟,add有3c延迟,因此您需要足够的指令级并行性来保持5或10次乘法。 |
![]() |
wubw · Skybox渲染的VkRenderPass加载操作问题 7 年前 |
![]() |
motam79 · 英特尔TBB流程图开销 7 年前 |
![]() |
sjso · 使用影子分页在ubuntu中运行vm? 7 年前 |
![]() |
BeeOnRope · 在x86中是否允许访问跨越零边界的内存? 7 年前 |