|
|
1
4
我有另一个很好的解决方案! 首先,我想提到一些数学公式:
因此:
它允许修改我们的算法:
只有在那之后,我们才能使用SIMD(我使用的是SSE2):
|
|
|
2
3
该算法有一个SIMD实现(我使用SSE4.1):
我希望它对你有用。 |
|
|
Dave · 3D矢量的SSE对齐 10 年前 |
|
|
Green goblin · 乱序16位矢量SSE 10 年前 |
|
|
John · 两个8位阵列协方差的快速实现 10 年前 |
|
|
Rames · XMM寄存器的位取反 10 年前 |
|
|
ishaan arora · 在C中将代码从SSE2转换为SSE4 10 年前 |
|
|
warunapww Krishna · PADDD指令的操作数 10 年前 |
|
|
Thomas · FMA指令集的硬件支持有多丰富 10 年前 |
|
|
user1095108 · 向量*矩阵产品效率问题 11 年前 |