为什么处理一个分类阵列的速度要快于处理一个未排序阵列的速度?

这是C++代码的一块显示一些非常特殊的行为

出于某种原因,对数据进行分类(之前奇迹般地使主环速度快近六倍:

#include <algorithm>
#include <ctime>
#include <iostream>

int main()
{
    // Generate data
    const unsigned arraySize = 32768;
    int data[arraySize];

    for (unsigned c = 0; c < arraySize; ++c)
        data[c] = std::rand() % 256;

    // !!! With this, the next loop runs faster.
    std::sort(data, data + arraySize);

    // Test
    clock_t start = clock();
    long long sum = 0;
    for (unsigned i = 0; i < 100000; ++i)
    {
        for (unsigned c = 0; c < arraySize; ++c)
        {   // Primary loop.
            if (data[c] >= 128)
                sum += data[c];
        }
    }

    double elapsedTime = static_cast<double>(clock()-start) / CLOCKS_PER_SEC;

    std::cout << elapsedTime << '\n';
    std::cout << "sum = " << sum << '\n';
}

不无std::sort(data, data + arraySize);代码在11.54秒内运行
根据分类数据代码在1.93秒内运行

(分类本身需要的时间比这个通过数组的时间要长, 所以如果我们需要计算未知数组, 它实际上不值得做。)

起初,我以为这只是一种语言或编译器异常, 所以我尝试了爪哇:

import java.util.Arrays;
import java.util.Random;

public class Main
{
    public static void main(String[] args)
    {
        // Generate data
        int arraySize = 32768;
        int data[] = new int[arraySize];

        Random rnd = new Random(0);
        for (int c = 0; c < arraySize; ++c)
            data[c] = rnd.nextInt() % 256;

        // !!! With this, the next loop runs faster
        Arrays.sort(data);

        // Test
        long start = System.nanoTime();
        long sum = 0;
        for (int i = 0; i < 100000; ++i)
        {
            for (int c = 0; c < arraySize; ++c)
            {   // Primary loop.
                if (data[c] >= 128)
                    sum += data[c];
            }
        }

        System.out.println((System.nanoTime() - start) / 1000000000.0);
        System.out.println("sum = " + sum);
    }
}

其结果类似,但不太极端。

我第一种想法是分类能把数据带进缓存缓存,但那是愚蠢的因为阵列是刚刚产生的。

这是怎么回事?
为什么处理一个分类阵列的速度要快于处理一个未排序阵列的速度?

守则正在总结一些独立的术语,因此命令不应重要。

相关/后续行动不同/以后的编译者和选项的相同效果:

当前回答

你是受害者子分支预测失败。

分会的预测是什么?

考虑铁路交叉点:

_{图像图像图像图像依据创用CC BY-ND 2.CC-By-SA 3.0 CC-By-SA 3.0许可证。}

现在,为了争论起见,假设这是在1800年代, 在长途或无线电通信之前。

您是连接点的盲人接线员, 听到火车来电的声音。您不知道该走哪条路。您停止了火车, 询问司机他们想要的方向。然后您将开关设置得当。

火车很重,而且有很多惰性, 所以它们需要永远的启动并放慢速度。

有更好的办法吗?

如果你猜对了,它会继续下去。
如果你猜错了,船长会停下来,后退,喊你开开关。然后它就可以从另一条路重新开始。

如果你每次猜对火车永远不会停下来
如果你猜错太频繁火车会花很多时间停下来备份重新开始

考虑如果报表:在加工一级,它是一个分支指令:

Screenshot of compiled code containing an if statement

你是一个处理者,你看见一个分支。你不知道它会走哪条路。你做什么?你停止执行,等待以前的指令完成。然后,你继续走正确的道路。

现代处理器复杂,管道长。这意味着它们永远需要“暖和”和“慢下来 ” 。

有更好的办法吗?

如果你猜对了,你继续执行。
如果您猜错了, 您需要冲洗管道, 然后滚回分支。然后您就可以重新启动另一条路径。

如果你每次猜对死刑将永远不会停止
如果你猜错太频繁,你花了很多时间拖延, 后退,重新开始。

这是分支预测。我承认这不是最好的比喻, 因为火车只能用旗帜发出方向信号。但在电脑上, 处理器不知道分支会朝哪个方向前进, 直到最后一刻。

您在战略上如何猜测如何将列车必须返回并沿着另一条路行驶的次数最小化 ? 您看看过去的历史。如果列车离开99%的时间, 那么您会猜到离开。如果列车转行, 那么您会换个猜想。如果列车每走三次, 您也会猜到同样的情况。

换句话说,你试图找出一个模式并遵循它。这或多或少是分支预测器的工作方式。

大多数应用程序都有良好的分支。因此,现代分支预测器通常会达到超过90%的冲击率。但是,当面对无法预见且没有可识别模式的分支时,分支预测器几乎毫无用处。

进一步读作:维基百科的“Branch 预测器”文章.

正如上面所暗示的,罪魁祸首就是这个说法:

if (data[c] >= 128)
    sum += data[c];

请注意数据分布在 0 和 255 之间。当对数据进行分类时, 大约前半段的迭代不会输入 if 语句。在此之后, 它们都会输入 if 语句。

这是对分支预测器非常友好的, 因为分支连续向同一方向运行很多次。即使是简单的饱和计数器也会正确预测分支, 除了在切换方向之后的几处迭代之外。

快速可视化 :

T = branch taken
N = branch not taken

data[] = 0, 1, 2, 3, 4, ... 126, 127, 128, 129, 130, ... 250, 251, 252, ...
branch = N  N  N  N  N  ...   N    N    T    T    T  ...   T    T    T  ...

       = NNNNNNNNNNNN ... NNNNNNNTTTTTTTTT ... TTTTTTTTTT  (easy to predict)

然而,当数据完全随机时,分支预测器就变得毫无用处,因为它无法预测随机数据。因此,可能会有大约50%的误用(没有比随机猜测更好的了 ) 。

data[] = 226, 185, 125, 158, 198, 144, 217, 79, 202, 118,  14, 150, 177, 182, ...
branch =   T,   T,   N,   T,   T,   T,   T,  N,   T,   N,   N,   T,   T,   T  ...

       = TTNTTTTNTNNTTT ...   (completely random - impossible to predict)

能够做些什么?

如果编译者无法将分支优化为有条件的动作, 您可以尝试一些黑客, 如果您愿意牺牲可读性来表现。

替换:

if (data[c] >= 128)
    sum += data[c];

与:

int t = (data[c] - 128) >> 31;
sum += ~t & data[c];

这将清除分支, 并替换为一些位元操作。

_{(注意这个黑客并不完全等同原始的如果声明。但在这种情况下,它对于所有输入值都有效。data[].)}

基准:核心i7 920@3.5千兆赫

C++ - 2010 - x64 释放

假设情景	时间( 秒)
分处 - 随机数据	11.777
分支 - 分类数据	2.352
无分支 - 随机数据	2.564
无分支 - 排序数据	2.587

Java - Netbeans 7.1.1 JDK 7 - x64

假设情景	时间( 秒)
分处 - 随机数据	10.93293813
分支 - 分类数据	5.643797077
无分支 - 随机数据	3.113581453
无分支 - 排序数据	3.186068823

意见:

与该处:分类和未分类数据之间存在巨大差异。
与哈克人:分类的数据和未分类的数据没有区别。
在 C++ 案中, 黑客的进位实际上比数据排序时的分支慢。

拇指的一般规则是避免在关键循环(如本例)中出现依赖数据的分支。

更新 :

GCC 4.6.1 和-O3或-ftree-vectorize在 x64 上能够生成一个有条件的移动, 所以分类的数据和未分类的数据之间没有区别, 两者都是快速的。

(或稍快:对于已经分类的案件,cmov特别是如果海合会将海合会置于关键道路上,而不是公正add特别是英特尔之前的英特尔 Broadwellcmov有2个周期的延迟:gcc 优化标记 -O3 使代码慢于 -O2)
VC++/2010 即使在/Ox.
Intel C+++ 编译器(ICC) 11 做了奇迹般的事情。交换两个循环从而将无法预测的分支拉到外环。它不仅能避免错误, 而且速度是 VC++ 和 GCC 所能生成的两倍。换句话说, ICC 利用试流击败基准...
如果您给 Intel 编译者无分支代码, 它会直接向导它... 并且和分支( 循环交换) 一样快。

这表明即使是成熟的现代编译者在优化代码的能力上也会大不相同...

2012-06-27 13:56:42

其他回答

你是受害者子分支预测失败。

分会的预测是什么?

考虑铁路交叉点:

_{图像图像图像图像依据创用CC BY-ND 2.CC-By-SA 3.0 CC-By-SA 3.0许可证。}

现在,为了争论起见,假设这是在1800年代, 在长途或无线电通信之前。

您是连接点的盲人接线员, 听到火车来电的声音。您不知道该走哪条路。您停止了火车, 询问司机他们想要的方向。然后您将开关设置得当。

火车很重,而且有很多惰性, 所以它们需要永远的启动并放慢速度。

有更好的办法吗?

如果你猜对了,它会继续下去。
如果你猜错了,船长会停下来,后退,喊你开开关。然后它就可以从另一条路重新开始。

如果你每次猜对火车永远不会停下来
如果你猜错太频繁火车会花很多时间停下来备份重新开始

考虑如果报表:在加工一级,它是一个分支指令:

Screenshot of compiled code containing an if statement

你是一个处理者,你看见一个分支。你不知道它会走哪条路。你做什么?你停止执行,等待以前的指令完成。然后,你继续走正确的道路。

现代处理器复杂,管道长。这意味着它们永远需要“暖和”和“慢下来 ” 。

有更好的办法吗?

如果你猜对了,你继续执行。
如果您猜错了, 您需要冲洗管道, 然后滚回分支。然后您就可以重新启动另一条路径。

如果你每次猜对死刑将永远不会停止
如果你猜错太频繁,你花了很多时间拖延, 后退,重新开始。

这是分支预测。我承认这不是最好的比喻, 因为火车只能用旗帜发出方向信号。但在电脑上, 处理器不知道分支会朝哪个方向前进, 直到最后一刻。

换句话说,你试图找出一个模式并遵循它。这或多或少是分支预测器的工作方式。

进一步读作:维基百科的“Branch 预测器”文章.

正如上面所暗示的,罪魁祸首就是这个说法:

if (data[c] >= 128)
    sum += data[c];

请注意数据分布在 0 和 255 之间。当对数据进行分类时, 大约前半段的迭代不会输入 if 语句。在此之后, 它们都会输入 if 语句。

快速可视化 :

T = branch taken
N = branch not taken

data[] = 0, 1, 2, 3, 4, ... 126, 127, 128, 129, 130, ... 250, 251, 252, ...
branch = N  N  N  N  N  ...   N    N    T    T    T  ...   T    T    T  ...

       = NNNNNNNNNNNN ... NNNNNNNTTTTTTTTT ... TTTTTTTTTT  (easy to predict)

然而,当数据完全随机时,分支预测器就变得毫无用处,因为它无法预测随机数据。因此,可能会有大约50%的误用(没有比随机猜测更好的了 ) 。

data[] = 226, 185, 125, 158, 198, 144, 217, 79, 202, 118,  14, 150, 177, 182, ...
branch =   T,   T,   N,   T,   T,   T,   T,  N,   T,   N,   N,   T,   T,   T  ...

       = TTNTTTTNTNNTTT ...   (completely random - impossible to predict)

能够做些什么?

如果编译者无法将分支优化为有条件的动作, 您可以尝试一些黑客, 如果您愿意牺牲可读性来表现。

替换:

if (data[c] >= 128)
    sum += data[c];

与:

int t = (data[c] - 128) >> 31;
sum += ~t & data[c];

这将清除分支, 并替换为一些位元操作。

_{(注意这个黑客并不完全等同原始的如果声明。但在这种情况下,它对于所有输入值都有效。data[].)}

基准:核心i7 920@3.5千兆赫

C++ - 2010 - x64 释放

假设情景	时间( 秒)
分处 - 随机数据	11.777
分支 - 分类数据	2.352
无分支 - 随机数据	2.564
无分支 - 排序数据	2.587

Java - Netbeans 7.1.1 JDK 7 - x64

假设情景	时间( 秒)
分处 - 随机数据	10.93293813
分支 - 分类数据	5.643797077
无分支 - 随机数据	3.113581453
无分支 - 排序数据	3.186068823

意见:

与该处:分类和未分类数据之间存在巨大差异。
与哈克人:分类的数据和未分类的数据没有区别。
在 C++ 案中, 黑客的进位实际上比数据排序时的分支慢。

拇指的一般规则是避免在关键循环(如本例)中出现依赖数据的分支。

更新 :

GCC 4.6.1 和-O3或-ftree-vectorize在 x64 上能够生成一个有条件的移动, 所以分类的数据和未分类的数据之间没有区别, 两者都是快速的。

(或稍快:对于已经分类的案件,cmov特别是如果海合会将海合会置于关键道路上,而不是公正add特别是英特尔之前的英特尔 Broadwellcmov有2个周期的延迟:gcc 优化标记 -O3 使代码慢于 -O2)
VC++/2010 即使在/Ox.
Intel C+++ 编译器(ICC) 11 做了奇迹般的事情。交换两个循环从而将无法预测的分支拉到外环。它不仅能避免错误, 而且速度是 VC++ 和 GCC 所能生成的两倍。换句话说, ICC 利用试流击败基准...
如果您给 Intel 编译者无分支代码, 它会直接向导它... 并且和分支( 循环交换) 一样快。

这表明即使是成熟的现代编译者在优化代码的能力上也会大不相同...

2012-06-27 13:56:42

以上行为之所以发生是因为分局的预测

要理解分支预测,首先必须了解指令管道。

运行一个指令的步骤可以与运行上一个和下一个指令的步骤序列相重叠,这样可以同时同时执行不同的步骤。这种技术被称为指令管衬,用来增加现代处理器的输送量。要更好地了解这一点,请看维基百科的示例.

一般而言,现代处理器有相当长(和宽)的管道,因此许多教学可能正在飞行中。现代微处理器 A 90-minute指南!首先是引入基本自序管管,然后从那里开始。

但为容易,让我们考虑一个简单的单用这四个步骤的单向输油管。
(像经典的5级RIRC,但忽略了单独的MEM阶段。 ))

IF -- -- 从内存获取指令
ID - 解码指令
EX - 执行指令
WB - 回写到 CPU 注册簿

一般为2项指示提供4级输油管。
4-stage pipeline in general

回到上述问题,让我们考虑以下指示:

                        A) if (data[c] >= 128)
                                /\
                               /  \
                              /    \
                        true /      \ false
                            /        \
                           /          \
                          /            \
                         /              \
              B) sum += data[c];          C) for loop or print().

如果没有部门预测,将出现下列情况:

要执行指令B或指令C,处理器必须等待(缓档直至指示A离开输油管中的EX阶段,因为进入指示B或指示C的决定取决于指示A的结果(即从何处取取取)。

无预测:何时if条件为真 : enter image description here

无预测:何时if条件为假 : enter image description here

由于等待指示A的结果,在上述情况下(没有分支预测;对真实和假的预测)所花的CPU周期总数为7个。

那么什么是分支预测?

分支预测器将尝试猜测分支( 如果- 如果- 如果- 如果- else 结构) 将往哪个方向走, 然后再确定这一点。它不会等待指令 A 到达管道的 EX 阶段, 而是会猜测决定并转到该指令( 以我们为例 ) ( B 或 C ) 。

如果猜对了,输油管看起来是这样的: enter image description here

如果后来发现猜测是错误的,那么部分执行的指示就会被丢弃,管道从正确的分支开始,造成延误。如果分支错误,浪费的时间相当于管道从取货阶段到执行阶段的阶段数。现代微处理器往往有相当长的管道,因此错误处理的延迟时间在10到20小时的周期之间。输油管越长,对货物的需求就越大。分支分支预测器.

在业务方案代码中,这是有条件的、分支预测员第一次没有任何信息作为预测基础,因此第一次随机选择下一个指令。 (或返回到后方)静静在循环中,它可以将预测建立在历史之上。对于按升序排序的阵列,有三种可能性:

所有元素小于 128
所有元素大于 128
一些开始的新元素还不到128个,后来则大于128个

让我们假设预测器将总是假设真正的分支在第一个运行。

因此,在第一种情况下,它总是要真正的分支,因为历史上它所有的预测都是正确的。在第二种情况下,它最初预测错误,但经过几次反复,它会正确预测。在第二种情况下,它最初将正确预测,直到元素低于128。之后,它会失败一段时间,当它看到分支预测在历史上失败时,它会失败一段时间,它会正确。

在所有这些情况下,失败的数量将太少,因此,只需放弃部分执行的指示,从正确的分支重新开始,就只需要放弃部分执行的指示的几次,导致CPU周期减少。

但如果是随机的未排序数组,预测将需要丢弃部分执行的指示,然后大部分时间以正确的分支重新开始,结果与分类数组相比,CPU周期会增加。

进一步读作:

现代微处理器 A 90-minute指南!
Dan Luu关于分支预测的文章(涵盖较老的分支预测器,而不是现代的IT-TAGE或倍数)
https://en.wikipedia.org/wiki/Branch_predictor
处处预测和口译员的工作表现 -- -- 不相信民俗- 2015年,Intel's Haswell在预测Python口译员主循环的间接分支(由于不简单模式,历史上存在问题)方面表现如何,相对于未使用 IT-TAGE 的早期CPU。 (虽然他们不帮助完全随机的这个案例。如果在Skylake CPU的环中,当源被编译为分支时,如果在环中,Skylake CPU的误判率仍为50%。 )
最新 Intel 处理器的静态分支预测- CPUs在运行分支指令时实际做什么,该指令没有动态预测。if或break)))后取(像环状)已被使用,因为它比什么都没有好。设置代码, 这样快速路径/ 普通大小写最小化的分支对 I -cache 密度和静态预测都有好处, 所以编译者已经这样做了。实际效果联联年月日月日月月日月月日月月月日月月日月月日月月月日月月日月月月日月的月月月日月月日月的月月月月日月月月likely / unlikely在 C 源中提示, 而不是在大多数 CPU 中暗示硬件分支预测, 除了通过静态预测。 )

2015-07-03 15:35:52

我刚读过这个问题及其答案,我觉得缺少答案。

消除我发现在管理下语言中特别出色的分支预测的一个常见方法是, 表格搜索而不是使用分支(虽然我还没有在本案中测试过它 ) 。

如果:

它是一个小桌子很可能在处理器中隐藏
您正在一个非常紧凑的循环中运行着一些东西和/或处理器可以预加载数据。

背景和原因

从处理器的角度来看,您的内存是慢的。为了弥补速度的差异,在您的处理器( L1/L2 缓存) 中嵌入了几个缓存。想象一下, 您正在做你的好计算, 并发现您需要一个内存。处理器会得到它的“ 装载” 操作, 并将内存部分装入缓存中, 然后用缓存来进行其余的计算。因为内存相对缓慢, 此“ 装载” 将会减缓您的程序。

像分支预测一样,这在Pentium处理器中被优化了:处理器预测,它需要在操作实际到达缓存之前装入一个数据,并试图将数据装入缓存中。我们已经看到,分支预测有时会发生可怕的错误 -- -- 在最坏的情况下,你需要回去等待一个记忆负荷,这将需要永远的时间(我们已看到,分支预测有时会发生可怕的错误)。换句话说,失败的分支预测是坏的,在分支预测失败之后的记忆负荷实在是太可怕了!).

幸运的是,对于我们来说,如果记忆存取模式可以预测,处理器将装在快速缓存中,一切都很好。

我们首先需要知道的是小? 虽然小一点一般比较好,但大拇指规则是坚持使用大小为 4096 字节的搜索表格。作为一个上限:如果您查看的表格大于 64K, 可能值得重新考虑。

构建表格

因此我们发现我们可以创建一个小表格。接下来要做的是设置一个查找功能。查找功能通常是使用几个基本整数操作( 以及, 或者, xor, 转换, 转换, 添加, 删除, 或倍增) 的小型函数。您想要将您的输入通过外观功能转换为表格中某种“ 独一无二的密钥 ” , 这样就可以简单给出您想要它做的所有工作的答案。

在此情况下 : 128 表示我们可以保留这个值, < 128 表示我们摆脱它。最简单的方法就是使用“ 和 ” : 如果我们保留它, 我们和它使用 7FFFFFFF; 如果我们想要摆脱它, 我们和它使用 0。注意 128 也是一种2 的功率, 所以我们可以继续制作一个32768/128 整数的表格, 并填满它 1 0 和很多 7FFFFFFFFFFFF。

受管理语言

毕竟,管理下的语言会用分支来检查阵列的界限,以确保你不会搞砸...

嗯,不确切地说... : -)

在取消管理下语文的这一分支方面,已经做了相当多的工作。

for (int i = 0; i < array.Length; ++i)
{
   // Use array[i]
}

在此情况下, 编译者明显知道边界条件永远不会被击中。至少微软 JIT 编译者( 但我预计爪哇会做类似的事情) 将会注意到这一点并完全取消检查。 WOW 表示没有分支。同样, 它也会处理其他明显的例子。

如果您遇到管理下语言的查询问题 -- -- 关键是添加 a& 0x[something]FFF使边界检查可以预测, 并且看着它更快地发展。

本案的结果

// Generate data
int arraySize = 32768;
int[] data = new int[arraySize];

Random random = new Random(0);
for (int c = 0; c < arraySize; ++c)
{
    data[c] = random.Next(256);
}

/*To keep the spirit of the code intact, I'll make a separate lookup table
(I assume we cannot modify 'data' or the number of loops)*/

int[] lookup = new int[256];

for (int c = 0; c < 256; ++c)
{
    lookup[c] = (c >= 128) ? c : 0;
}

// Test
DateTime startTime = System.DateTime.Now;
long sum = 0;

for (int i = 0; i < 100000; ++i)
{
    // Primary loop
    for (int j = 0; j < arraySize; ++j)
    {
        /* Here you basically want to use simple operations - so no
        random branches, but things like &, |, *, -, +, etc. are fine. */
        sum += lookup[data[j]];
    }
}

DateTime endTime = System.DateTime.Now;
Console.WriteLine(endTime - startTime);
Console.WriteLine("sum = " + sum);
Console.ReadLine();

2013-04-24 06:26:28

毫无疑问,我们中有些人会感兴趣的是,如何确定对CPU的分支种植者有问题的代码。cachegrind使用--branch-sim=yes将外环数量减少到10 000个,并编成g++给出这些结果:

分类 :

==32551== Branches:        656,645,130  (  656,609,208 cond +    35,922 ind)
==32551== Mispredicts:         169,556  (      169,095 cond +       461 ind)
==32551== Mispred rate:            0.0% (          0.0%     +       1.2%   )

未分类 :

==32555== Branches:        655,996,082  (  655,960,160 cond +  35,922 ind)
==32555== Mispredicts:     164,073,152  (  164,072,692 cond +     460 ind)
==32555== Mispred rate:           25.0% (         25.0%     +     1.2%   )

向下钻入cg_annotate我们可以看到有关循环:

分类 :

          Bc    Bcm Bi Bim
      10,001      4  0   0      for (unsigned i = 0; i < 10000; ++i)
           .      .  .   .      {
           .      .  .   .          // primary loop
 327,690,000 10,016  0   0          for (unsigned c = 0; c < arraySize; ++c)
           .      .  .   .          {
 327,680,000 10,006  0   0              if (data[c] >= 128)
           0      0  0   0                  sum += data[c];
           .      .  .   .          }
           .      .  .   .      }

未分类 :

          Bc         Bcm Bi Bim
      10,001           4  0   0      for (unsigned i = 0; i < 10000; ++i)
           .           .  .   .      {
           .           .  .   .          // primary loop
 327,690,000      10,038  0   0          for (unsigned c = 0; c < arraySize; ++c)
           .           .  .   .          {
 327,680,000 164,050,007  0   0              if (data[c] >= 128)
           0           0  0   0                  sum += data[c];
           .           .  .   .          }
           .           .  .   .      }

这样可以方便地识别有问题的行 - 在未排序的版本中if (data[c] >= 128)造成164 050 007个错误预测的附带条件的分支(第1行)。Bcm),根据暗礁的分支 - 指示模型, 而它只造成10,006 在分类版本中。

或者,在Linux上,你可以使用性能计数器子系统完成同样的任务,但使用CPU计数器进行本地性能。

perf stat ./sumtest_sorted

分类 :

 Performance counter stats for './sumtest_sorted':

  11808.095776 task-clock                #    0.998 CPUs utilized          
         1,062 context-switches          #    0.090 K/sec                  
            14 CPU-migrations            #    0.001 K/sec                  
           337 page-faults               #    0.029 K/sec                  
26,487,882,764 cycles                    #    2.243 GHz                    
41,025,654,322 instructions              #    1.55  insns per cycle        
 6,558,871,379 branches                  #  555.455 M/sec                  
       567,204 branch-misses             #    0.01% of all branches        

  11.827228330 seconds time elapsed

未分类 :

 Performance counter stats for './sumtest_unsorted':

  28877.954344 task-clock                #    0.998 CPUs utilized          
         2,584 context-switches          #    0.089 K/sec                  
            18 CPU-migrations            #    0.001 K/sec                  
           335 page-faults               #    0.012 K/sec                  
65,076,127,595 cycles                    #    2.253 GHz                    
41,032,528,741 instructions              #    0.63  insns per cycle        
 6,560,579,013 branches                  #  227.183 M/sec                  
 1,646,394,749 branch-misses             #   25.10% of all branches        

  28.935500947 seconds time elapsed

它还可以进行源代码批注,进行拆卸。

perf record -e branch-misses ./sumtest_unsorted
perf annotate -d sumtest_unsorted

 Percent |      Source code & Disassembly of sumtest_unsorted
------------------------------------------------
...
         :                      sum += data[c];
    0.00 :        400a1a:       mov    -0x14(%rbp),%eax
   39.97 :        400a1d:       mov    %eax,%eax
    5.31 :        400a1f:       mov    -0x20040(%rbp,%rax,4),%eax
    4.60 :        400a26:       cltq   
    0.00 :        400a28:       add    %rax,-0x30(%rbp)
...

见见性能辅导以获取更多细节。

2012-10-12 05:53:33

避免分支预测错误的一种方法是建立一个搜索表,并用数据来编制索引。 Stefan de Bruijn在答复中讨论了这一点。

但在此情况下,我们知道值在范围[0,255],我们只关心值 128。这意味着我们可以很容易地提取一小块来说明我们是否想要一个值:通过将数据移到右边的7位数,我们只剩下0位或1位数,我们只有1位数时才想要增加值。让我们把这个位数称为“决定位数 ” 。

将决定位数的 0/1 值作为索引输入一个阵列, 我们就可以生成一个代码, 无论数据是排序还是未排序, 都同样快速。我们的代码总是会添加一个值, 但是当决定位数为 0 时, 我们将会添加一个值, 我们并不关心的地方。以下是代码 :

// Test
clock_t start = clock();
long long a[] = {0, 0};
long long sum;

for (unsigned i = 0; i < 100000; ++i)
{
    // Primary loop
    for (unsigned c = 0; c < arraySize; ++c)
    {
        int j = (data[c] >> 7);
        a[j] += data[c];
    }
}

double elapsedTime = static_cast<double>(clock() - start) / CLOCKS_PER_SEC;
sum = a[1];

此代码浪费了一半的添加值, 但从未出现分支预测失败。随机数据比有实际的如果声明的版本要快得多。

但在我的测试中,一个清晰的查看表比这个稍快一些, 可能是因为对一个查看表的索引比位变换略快一些。这显示了我的代码是如何设置和使用搜索表的( 无法想象地称为“ 搜索表 ” ) 。lut代码中“ 查看表格” 。这是 C++ 代码 :

// Declare and then fill in the lookup table
int lut[256];
for (unsigned c = 0; c < 256; ++c)
    lut[c] = (c >= 128) ? c : 0;

// Use the lookup table after it is built
for (unsigned i = 0; i < 100000; ++i)
{
    // Primary loop
    for (unsigned c = 0; c < arraySize; ++c)
    {
        sum += lut[data[c]];
    }
}

在此情况下, 查看表只有256 字节, 所以它在一个缓存中非常适合, 并且非常快。如果数据是 24 位值, 而我们只想要其中一半的话, 这个技术就不会有效... 搜索表会太大而不切实际。另一方面, 我们可以将上面显示的两种技术结合起来: 首先将比特移开, 然后将一个查看表索引。对于一个仅需要顶端半值的 24 位值, 我们可能会将数据右移12 位值, 并留下一个 12 位值的表格索引。 12 位表指数意味着一个有 4096 个值的表格, 这可能是实用的。

将技术编成一个阵列,而不是使用if语句,可用于决定使用哪个指针。我看到一个实施二进制树的图书馆,而不是有两个命名指针(指针)。pLeft和pRight或什么的)有长2至2的指针阵列,并使用“决定位位”技术来决定应跟随哪一个。例如,而不是:

if (x < node->value)
    node = node->pLeft;
else
    node = node->pRight;

这个图书馆会做一些事情,比如:

i = (x < node->value);
node = node->link[i];

以下是这个代码的链接:红黑树, 永久封存

2013-07-22 08:29:30