什么时候汇编比C快?

了解汇编程序的原因之一是，有时可以使用汇编程序来编写比用高级语言(特别是C语言)编写的代码性能更好的代码。然而，我也听人说过很多次，尽管这并非完全错误，但实际上可以使用汇编程序来生成性能更好的代码的情况极其罕见，并且需要汇编方面的专业知识和经验。

这个问题甚至没有涉及到这样一个事实，即汇编程序指令将是特定于机器的、不可移植的，或者汇编程序的任何其他方面。当然，除了这一点之外，了解汇编还有很多很好的理由，但这是一个需要示例和数据的具体问题，而不是关于汇编程序与高级语言的扩展论述。

谁能提供一些具体的例子，说明使用现代编译器汇编代码比编写良好的C代码更快，并且您能否用分析证据支持这一说法?我相信这些案例确实存在，但我真的很想知道这些案例到底有多深奥，因为这似乎是一个有争议的问题。

当前回答

我想说的是，当你比编译器更擅长一组给定的指令时。所以我认为没有通用的答案

其他回答

我不能给出具体的例子，因为那是很多年前的事情了，但是在很多情况下，手工编写的汇编程序可以胜过任何编译器。原因:

您可以偏离调用约定，在寄存器中传递参数。您可以仔细考虑如何使用寄存器，避免将变量存储在内存中。对于跳转表之类的东西，可以避免检查索引的边界。

基本上，编译器在优化方面做得很好，这几乎总是“足够好”，但在某些情况下(如图形渲染)，你要为每一个周期付出高昂的代价，你可以走捷径，因为你知道代码，而编译器不能，因为它必须在安全的方面。

事实上，我听说过一些图形渲染代码，其中一个例程，如直线绘制或多边形填充例程，实际上在堆栈上生成了一小块机器代码并在那里执行，以避免关于线条样式、宽度、模式等的连续决策。

也就是说，我想让编译器为我生成好的汇编代码，但又不太聪明，它们通常都是这样做的。事实上，我讨厌Fortran的一个原因是它为了“优化”而打乱代码，通常没有什么重要的目的。

通常，当应用程序出现性能问题时，都是由于浪费的设计造成的。这些天，我永远不会推荐汇编程序的性能，除非整个应用程序已经在它的生命周期内进行了调优，仍然不够快，并且把所有的时间都花在了紧凑的内部循环中。

补充:我见过很多用汇编语言编写的应用程序，与C、Pascal、Fortran等语言相比，汇编语言的主要速度优势是因为程序员在用汇编语言编码时要谨慎得多。他或她每天要写大约100行代码，不管哪种语言，在编译器语言中，这将等于3或400条指令。

如果您没有查看编译器生成的内容的反汇编，您实际上无法知道编写良好的C代码是否真的很快。很多时候你会发现“写得好”是主观的。

因此，没有必要用汇编程序来获得最快的代码，但出于同样的原因，了解汇编程序当然是值得的。

在处理器速度以MHz为单位，屏幕尺寸低于100万像素的时代，一个众所周知的更快显示的技巧是展开循环:为屏幕的每个扫描行写操作。它避免了维护循环索引的开销!再加上检测屏幕刷新，它非常有效。这是C编译器不会做的事情……(虽然通常可以在速度优化和规模优化之间进行选择，但我认为前者使用了一些类似的技巧。)

我知道有些人喜欢用汇编语言编写Windows应用程序。他们声称他们更快(很难证明)和更小(确实如此!)。显然，虽然这样做很有趣，但可能会浪费时间(当然，学习目的除外!)，特别是对于GUI操作…… 现在，也许某些操作(比如在文件中搜索字符串)可以通过精心编写的汇编代码进行优化。

紧密循环，就像处理图像时一样，因为一张图像可能需要数百万像素。坐下来研究一下如何最好地利用有限的处理器寄存器会有很大的不同。下面是一个真实的例子:

http://danbystrom.se/2008/12/22/optimizing-away-ii/

处理器通常有一些深奥的指令，这些指令对于编译器来说太专业了，但有时汇编程序员可以很好地利用它们。以XLAT指令为例。如果您需要在循环中进行表查找，并且表限制在256字节，那么这非常棒!

更新:哦，当我们谈论一般循环时，最关键的是:编译器通常不知道常见情况下会有多少次迭代!只有程序员知道一个循环会被迭代很多次，因此用一些额外的工作来准备循环是有益的，或者如果它迭代的次数太少，以至于设置实际花费的时间比预期的迭代要长。

这很难具体地回答，因为这个问题非常不具体:到底什么是“现代编译器”?

理论上，几乎任何手动的汇编器优化都可以由编译器来完成——实际上它是否已经完成，不能笼统地说，只能说特定编译器的特定版本。许多可能需要花费大量的精力来确定它们是否可以在特定的上下文中应用而不产生副作用，以至于编译器编写者不会为它们烦恼。

推荐文章