为什么GCC不将a*a*a*a*a*a优化为（a*a**a）*（a*a*a）？

我正在对一个科学应用程序进行数值优化。我注意到的一件事是，GCC将通过将调用pow（a，2）编译为a*a来优化它，但调用pov（a，6）并没有优化，实际上会调用库函数pow，这会大大降低性能。（相比之下，可执行icc的“英特尔C++编译器”将消除对pow（a，6）的库调用。）

我好奇的是，当我使用GCC 4.5.1和选项“-O3-lm-funroll-loops-msse4”将pow（a，6）替换为a*a*a*a*a*a时，它使用了5条多指令：

movapd  %xmm14, %xmm13
mulsd   %xmm14, %xmm13
mulsd   %xmm14, %xmm13
mulsd   %xmm14, %xmm13
mulsd   %xmm14, %xmm13
mulsd   %xmm14, %xmm13

而如果我写（a*a*a）*（a*a*a），它将产生

movapd  %xmm14, %xmm13
mulsd   %xmm14, %xmm13
mulsd   %xmm14, %xmm13
mulsd   %xmm13, %xmm13

这将乘法指令的数量减少到3。icc也有类似的行为。

为什么编译器不认识这种优化技巧？

当前回答

还没有海报提到浮动表达式的收缩（ISO C标准，6.5p8和7.12.2）。如果FP_CONTRACT pragma设置为ON，则允许编译器将诸如a*a*a*a*a*a之类的表达式视为单个操作，就好像使用单个舍入来精确计算一样。例如，编译器可以用更快更准确的内部幂函数代替它。这特别有趣，因为行为部分由程序员直接在源代码中控制，而最终用户提供的编译器选项有时可能使用错误。

FP_CONTRACT pragma的默认状态是实现定义的，因此默认情况下允许编译器进行此类优化。因此，需要严格遵循IEEE 754规则的可移植代码应该明确地将其设置为OFF。

如果编译器不支持此pragma，则必须避免任何此类优化，以防开发人员选择将其设置为OFF。

GCC不支持此pragma，但使用默认选项时，它假设它为ON；因此，对于具有硬件FMA的目标，如果要防止a*b+c转换为FMA（a，b，c），则需要提供一个选项，例如-ffp contract=off（显式地将pragma设置为off）或-std=c99（告诉GCC遵守某些c标准版本，这里是c99，因此遵循上面的段落）。过去，后一种选择并未阻止转型，这意味着GCC在这一点上不符合：https://gcc.gnu.org/bugzilla/show_bug.cgi?id=37845

2014-06-27 21:03:11

其他回答

因为浮点数学不是关联的。浮点乘法中操作数的分组方式会影响答案的数值精度。

因此，大多数编译器对重新排序浮点计算非常保守，除非他们能够确定答案不变，或者除非你告诉他们你不在乎数值精度。例如：gcc的-fassociative math选项允许gcc重新关联浮点运算，或者甚至-fast math选项，允许更积极地权衡精度与速度。

2011-06-21 18:56:51

Fortran（为科学计算而设计）有一个内置的幂运算符，据我所知，Fortran编译器通常会以与您描述的方式类似的方式优化整数幂的提升。不幸的是，C/C++没有幂运算符，只有库函数pow（）。这并不妨碍智能编译器专门处理pow，并在特殊情况下以更快的方式计算pow，但它们似乎不太常用。。。

几年前，我试图使以最佳方式计算整数幂更方便，并提出了以下建议。它是C++，而不是C，并且仍然取决于编译器在如何优化/内联方面有点聪明。无论如何，希望你能在实践中发现它有用：

template<unsigned N> struct power_impl;

template<unsigned N> struct power_impl {
    template<typename T>
    static T calc(const T &x) {
        if (N%2 == 0)
            return power_impl<N/2>::calc(x*x);
        else if (N%3 == 0)
            return power_impl<N/3>::calc(x*x*x);
        return power_impl<N-1>::calc(x)*x;
    }
};

template<> struct power_impl<0> {
    template<typename T>
    static T calc(const T &) { return 1; }
};

template<unsigned N, typename T>
inline T power(const T &x) {
    return power_impl<N>::calc(x);
}

为好奇的人澄清：这并没有找到计算幂的最佳方法，但由于找到最佳解是一个NP完全问题，而且这只值得对小幂做（而不是使用pow），因此没有理由大惊小怪。

然后将其用作功率<6>（a）。

这样可以很容易地输入幂（不需要像用括号一样拼出6），并且可以在不使用数学的情况下进行这种优化，以防出现精度相关的情况，例如补偿求和（这是一个操作顺序至关重要的示例）。

您可能也会忘记这是C++，而只是在C程序中使用它（如果它是用C++编译器编译的）。

希望这能有用。

编辑：

这是我从编译器中得到的：

对于a*a*a*a*a*a，

    movapd  %xmm1, %xmm0
    mulsd   %xmm1, %xmm0
    mulsd   %xmm1, %xmm0
    mulsd   %xmm1, %xmm0
    mulsd   %xmm1, %xmm0
    mulsd   %xmm1, %xmm0

对于（a*a*a）*（a*a*a），

    movapd  %xmm1, %xmm0
    mulsd   %xmm1, %xmm0
    mulsd   %xmm1, %xmm0
    mulsd   %xmm0, %xmm0

对于功率<6>（a），

    mulsd   %xmm0, %xmm0
    movapd  %xmm0, %xmm1
    mulsd   %xmm0, %xmm1
    mulsd   %xmm0, %xmm1

2011-06-23 11:44:53

gcc实际上可以进行这种优化，即使对于浮点数也是如此。例如

double foo(double a) {
  return a*a*a*a*a*a;
}

变成

foo(double):
    mulsd   %xmm0, %xmm0
    movapd  %xmm0, %xmm1
    mulsd   %xmm0, %xmm1
    mulsd   %xmm1, %xmm0
    ret

使用-O-funcafe数学优化。但是，这种重新排序违反了IEEE-754，因此需要标记。

正如Peter Cordes在一篇评论中指出的，有符号整数可以在没有funsafe数学优化的情况下进行这种优化，因为它恰好在没有溢出的情况下有效，如果有溢出，则会出现未定义的行为。所以你得到

foo(long):
    movq    %rdi, %rax
    imulq   %rdi, %rax
    imulq   %rdi, %rax
    imulq   %rax, %rax
    ret

只需-O。对于无符号整数，这更容易，因为它们是2的模幂，因此即使在溢出的情况下也可以自由地重新排序。

2016-06-16 18:44:57

如果编译器不支持此pragma，则必须避免任何此类优化，以防开发人员选择将其设置为OFF。

2014-06-27 21:03:11

当a为整数时，GCC实际上将a*a*a*a*a*a优化为（a*a**a）*（a*a*a）。我尝试使用以下命令：

$ echo 'int f(int x) { return x*x*x*x*x*x; }' | gcc -o - -O2 -S -masm=intel -x c -

有很多gcc标志，但没有什么花哨的。他们的意思是：从stdin读取；使用O2优化水平；输出汇编语言列表而不是二进制；该列表应使用英特尔汇编语言语法；输入是C语言（通常从输入文件扩展名推断出语言，但从stdin读取时没有文件扩展名）；并写入stdout。

这是输出的重要部分。我用一些注释对其进行了注释，指出了汇编语言中的情况：

; x is in edi to begin with.  eax will be used as a temporary register.
mov  eax, edi  ; temp = x
imul eax, edi  ; temp = x * temp
imul eax, edi  ; temp = x * temp
imul eax, eax  ; temp = temp * temp

我在Linux Mint 16 Petra上使用GCC系统，这是一个Ubuntu衍生版本。以下是gcc版本：

$ gcc --version
gcc (Ubuntu/Linaro 4.8.1-10ubuntu9) 4.8.1

正如其他海报所指出的，在浮点运算中，这个选项是不可能的，因为浮点运算是不相关的。

2014-03-29 06:51:06

为什么GCC不将aaaaaa优化为（aa**a）（aa*a）？

推荐文章

最新文章

标签