如何评测在Linux上运行的C++代码？

如何找到在Linux上运行的C++应用程序中运行缓慢的代码区域？

当前回答

对于单线程程序，您可以使用igprof，The Ignorminous Profiler：https://igprof.org/ .

这是一个采样分析器，沿着。。。长的Mike Dunlavey的回答，它将把结果包装在一个可浏览的调用堆栈树中，用每个函数（无论是累积的还是每个函数）花费的时间或内存进行注释。

2018-03-17 12:20:45

其他回答

还值得一提的是

HPC工具包(http://hpctoolkit.org/)-开源，适用于并行程序，并具有一个GUI，可通过该GUI以多种方式查看结果英特尔VTune(https://software.intel.com/en-us/vtune)-如果你有英特尔编译器，这很好τ(http://www.cs.uoregon.edu/research/tau/home.php)

我使用过HPCToolkit和VTune，它们在寻找帐篷中的长极点方面非常有效，并且不需要重新编译代码（除了必须在CMake中使用-g-O或RelWithDebInfo类型的内置来获得有意义的输出）。我听说TAU的能力类似。

2018-09-14 22:56:48

我假设你在使用GCC。标准的解决方案是使用gprof进行分析。

在分析之前，请确保将-pg添加到编译中：

cc -o myprog myprog.c utils.c -g -pg

我还没有尝试过，但我听到了关于谷歌perftools的好消息。这绝对值得一试。

这里有相关问题。

如果gprof不适合您，还有一些流行语：Valgrind、Intel VTune、Sun DTrace。

2008-12-17 20:34:45

您可以使用iprof库：

https://gitlab.com/Neurochrom/iprof

https://github.com/Neurochrom/iprof

它是跨平台的，允许您不实时测量应用程序的性能。您甚至可以将其与实时图表相结合。完整免责声明：我是作者。

2019-02-24 18:01:00

事实上，没有多少人提到google/基准测试，这有点让人惊讶，虽然固定代码的特定区域有点麻烦，特别是如果代码库有点大的话，但是我发现这在与callgrind结合使用时非常有用

IMHO识别导致瓶颈的工件是这里的关键。不过，我会先尝试回答以下问题，然后根据这些问题选择工具

我的算法正确吗？有锁被证明是瓶颈吗？是否有一段特定的代码被证明是罪魁祸首？IO如何处理和优化？

valgrind与callgrind和kcachegrind的结合应该能对以上几点提供一个不错的估计，一旦确定某段代码存在问题，我建议做一个微基准测试——谷歌基准测试是一个很好的开始。

2019-11-03 14:47:54

这是对Nazgob Gprof回答的回应。

过去几天我一直在使用Gprof，已经发现了三个重要的限制，其中一个是我在其他地方还没有看到过的：

它不能在多线程代码上正常工作，除非您使用变通方法调用图被函数指针弄糊涂了。示例：我有一个名为multithread（）的函数，它使我能够在指定的数组上对指定的函数进行多线程处理（两者都作为参数传递）。然而，Gprof将所有对多线程（）的调用视为等效的，以计算在孩子身上花费的时间。由于我传递给多线程（）的一些函数花费的时间比其他函数长得多，所以我的调用图基本上是无用的。（对于那些想知道线程是否是这里的问题的人来说：不，多线程（）可以选择，在这种情况下，只在调用线程上按顺序运行所有内容）。这里说“……调用数数字是通过计数而不是采样得出的。它们是完全准确的……”。然而，我发现我的调用图给了我5345859132+784984078作为对我调用最多的函数的调用统计数据，其中第一个数字应该是直接调用，第二个递归调用（都来自它本身）。因为这意味着我有一个bug，所以我在代码中加入了长（64位）计数器，并再次运行相同的程序。我的计数：5345859132个直接调用和78094395406个自递归调用。这里有很多数字，所以我要指出，我测量的递归调用是780亿，而Gprof是7.84亿：相差100倍。两次运行都是单线程和未优化的代码，一次是编译的-g，另一次是-pg。

这是在64位Debian Lenny下运行的GNUGprof（Debian的GNUBinutils）2.18.0.20080103，如果这对任何人都有帮助的话。

2011-06-30 19:30:44

如何评测在Linux上运行的C++代码？

推荐文章

最新文章

标签