最后的性能优化策略

在这个网站上已经有很多性能问题了，但是在我看来，几乎所有的问题都是非常具体的，而且相当狭窄。几乎所有人都重复了避免过早优化的建议。

我们假设:

代码已经正常工作了所选择的算法对于问题的环境已经是最优的对代码进行了测量，并隔离了有问题的例程所有优化的尝试也将被衡量，以确保它们不会使事情变得更糟

我在这里寻找的是策略和技巧，在一个关键算法中，当没有其他事情可做，但无论如何都要挤出最后百分之几。

理想情况下，尽量让答案与语言无关，并在适用的情况下指出所建议的策略的任何缺点。

我将添加一个带有我自己最初建议的回复，并期待Stack Overflow社区能想到的任何其他东西。

当前回答

不像之前的答案那么深入或复杂，但下面是: (这些更多是初级/中级水平)

明显:干向后运行循环，所以总是与0比较，而不是与变量比较尽可能使用位操作符将重复的代码分解为模块/函数缓存对象局部变量具有轻微的性能优势尽可能限制字符串操作

2012-08-30 16:01:33

其他回答

内联例程(消除调用/返回和参数推送) 试着用表查找(如果它们更快的话)消除测试/开关展开循环(Duff的设备)到刚好适合CPU缓存的位置本地化内存访问，以免耗尽缓存如果优化器还没有本地化相关的计算如果优化器还没有这样做，就消除循环不变量

2009-05-29 15:05:04

向它扔更多的硬件!

2009-05-29 14:32:26

很难对这个问题给出一般的答案。这实际上取决于你的问题领域和技术实现。一种与语言无关的通用技术:识别无法消除的代码热点，并手工优化汇编代码。

2009-05-29 14:32:36

在带有模板的语言(c++ /D)中，您可以尝试通过模板参数传播常量值。你甚至可以用开关来处理小的非常值集合。

Foo(i, j); // i always in 0-4.

就变成了

switch(i)
{
    case 0: Foo<0>(j); break;
    case 1: Foo<1>(j); break;
    case 2: Foo<2>(j); break;
    case 3: Foo<3>(j); break;
    case 4: Foo<4>(j); break;
}

缺点是缓存压力，因此这只会在深度或长期运行的调用树中获得，其中值在持续时间内是恒定的。

2009-06-17 20:30:17

最后几个%是一个非常CPU和应用程序依赖的东西....

缓存架构不同，有些芯片有片上内存你可以直接映射，ARM的(有时)有一个矢量单位，SH4是一个有用的矩阵操作码。有GPU吗也许一个着色器是可行的。TMS320非常对循环中的分支敏感(因此分离循环和如果可能的话，将条件移到室外)。

名单在....上但这类事情真的是最后的手段……

编译x86，并运行Valgrind/Cachegrind对代码进行适当的性能分析。或者德州仪器的 CCStudio有一个贴心的侧写器。然后你就知道在哪里了关注……

2009-08-10 23:59:47

最后的性能优化策略

推荐文章

最新文章

标签