最后的性能优化策略

在这个网站上已经有很多性能问题了，但是在我看来，几乎所有的问题都是非常具体的，而且相当狭窄。几乎所有人都重复了避免过早优化的建议。

我们假设:

代码已经正常工作了所选择的算法对于问题的环境已经是最优的对代码进行了测量，并隔离了有问题的例程所有优化的尝试也将被衡量，以确保它们不会使事情变得更糟

我在这里寻找的是策略和技巧，在一个关键算法中，当没有其他事情可做，但无论如何都要挤出最后百分之几。

理想情况下，尽量让答案与语言无关，并在适用的情况下指出所建议的策略的任何缺点。

我将添加一个带有我自己最初建议的回复，并期待Stack Overflow社区能想到的任何其他东西。

当前回答

如果你有很多高度并行的浮点运算——尤其是单精度运算——尝试使用OpenCL或(对于NVidia芯片)CUDA将其卸载到图形处理器上(如果有的话)。gpu在着色器中拥有强大的浮点计算能力，这比CPU要大得多。

其他回答

分而治之

如果正在处理的数据集太大，则对其中的大块进行循环。如果代码编写正确，实现应该很容易。如果您有一个单片程序，现在您就更清楚了。

调整操作系统和框架。

这听起来可能有点夸张，但可以这样想:操作系统和框架被设计用来做很多事情。您的应用程序只做非常具体的事情。如果你能让操作系统完全满足你的应用程序的需求，并让你的应用程序理解框架(php，.net,java)是如何工作的，你就能从硬件上得到更好的东西。

例如，Facebook改变了Linux中的一些内核级别的东西，改变了memcached的工作方式(例如，他们写了一个memcached代理，使用udp而不是tcp)。

另一个例子是Window2008。Win2K8有一个版本，你可以安装运行X应用程序所需的基本操作系统(例如web应用程序，服务器应用程序)。这大大减少了操作系统在运行进程方面的开销，并为您提供了更好的性能。

当然，你应该在第一步就投入更多的硬件……

您可能应该考虑“谷歌视角”，即确定您的应用程序如何在很大程度上实现并行和并发，这也不可避免地意味着在某种程度上考虑将您的应用程序分布在不同的机器和网络上，这样它就可以理想地与您投入的硬件几乎线性扩展。

另一方面，谷歌人员也以投入大量人力和资源来解决他们正在使用的项目、工具和基础设施中的一些问题而闻名，例如，通过拥有一个专门的工程师团队来破解gcc内部，以便为Google典型的用例场景做好准备，从而对gcc进行整个程序优化。

类似地，分析应用程序不再仅仅意味着分析程序代码，还包括它周围的所有系统和基础设施(想想网络、交换机、服务器、RAID阵列)，以便从系统的角度识别冗余和优化潜力。

谷歌方法是一个选项“缓存它..”只要可能，不要碰磁盘。”

内联例程(消除调用/返回和参数推送) 试着用表查找(如果它们更快的话)消除测试/开关展开循环(Duff的设备)到刚好适合CPU缓存的位置本地化内存访问，以免耗尽缓存如果优化器还没有本地化相关的计算如果优化器还没有这样做，就消除循环不变量

推荐文章