Şu basit döngüyü düşünün:
float f(float x[]) {
float p = 1.0;
for (int i = 0; i < 959; i++)
p += 1;
return p;
}
Gcc 7 (anlık görüntü) veya clang (trunk) ile derlerseniz, -march=core-avx2 -Ofast
çok benzer bir şey elde edersiniz.
.LCPI0_0:
.long 1148190720 # float 960
f: # @f
vmovss xmm0, dword ptr [rip + .LCPI0_0] # xmm0 = mem[0],zero,zero,zero
ret
Başka bir deyişle, cevabı döngü yapmadan 960'a ayarlar.
Ancak kodu şu şekilde değiştirirseniz:
float f(float x[]) {
float p = 1.0;
for (int i = 0; i < 960; i++)
p += 1;
return p;
}
Üretilen derleme aslında döngü toplamını gerçekleştirir Örneğin clang şunu verir:
.LCPI0_0:
.long 1065353216 # float 1
.LCPI0_1:
.long 1086324736 # float 6
f: # @f
vmovss xmm0, dword ptr [rip + .LCPI0_0] # xmm0 = mem[0],zero,zero,zero
vxorps ymm1, ymm1, ymm1
mov eax, 960
vbroadcastss ymm2, dword ptr [rip + .LCPI0_1]
vxorps ymm3, ymm3, ymm3
vxorps ymm4, ymm4, ymm4
.LBB0_1: # =>This Inner Loop Header: Depth=1
vaddps ymm0, ymm0, ymm2
vaddps ymm1, ymm1, ymm2
vaddps ymm3, ymm3, ymm2
vaddps ymm4, ymm4, ymm2
add eax, -192
jne .LBB0_1
vaddps ymm0, ymm1, ymm0
vaddps ymm0, ymm3, ymm0
vaddps ymm0, ymm4, ymm0
vextractf128 xmm1, ymm0, 1
vaddps ymm0, ymm0, ymm1
vpermilpd xmm1, xmm0, 1 # xmm1 = xmm0[1,0]
vaddps ymm0, ymm0, ymm1
vhaddps ymm0, ymm0, ymm0
vzeroupper
ret
Bu neden ve neden clang ve gcc için tamamen aynı?
Aynı döngü sınırı değiştirirseniz float
ile double
bu yine gcc ve clang için aynıdır 479. olduğunu.
Güncelleme 1
Gcc 7'nin (anlık görüntü) ve clang'ın (trunk) çok farklı davrandığı ortaya çıktı. clang, anlayabildiğim kadarıyla 960'ın altındaki tüm sınırlar için döngüleri optimize ediyor. gcc ise tam değere duyarlıdır ve bir üst limiti yoktur. Örneğin o etmez sınırı 200 olduğu zaman döngü üzerinden duruma (aynı zamanda pek çok diğer değerler) ama yapar sınır 202 ve 20002 (aynı zamanda pek çok diğer değerleri) olduğunda.