深入计算机系统看性能优化

本文介绍: 这里为了说明效果，我们编译的时候，并没有采用优化（编译优化，确实可以提高程序运行的效率，但是过高的编译优化等级会有一定的副作用，另外编译器优化也具有一定的局限性，高效的代码仍然应该是我们追求的目标）。我们知道这里的判断一直是0。这样的机器语言由纯粹的0和1构成，十分复杂，不方便阅读和修改，也容易产生错误。所以有些情况下，当我们根据实际的情况可以判断出哪条分支的可能性更高的时候，我们就可以站在上帝视角给予一定的提示，这样就可以降低分支预测错误，减少CPU的无用功了，从而可以有效的提高性能，同时也节省了功耗。

“性能优化”，从计算机诞生之初就一直伴随着计算机技术的发展，直到现在。将来也必定不会消失。这是因为每个人都会追求性价比，花最少的钱，办最多的事。生活中也一样，就比如说泡茶，但凡有点常识的人都不会先洗茶杯，再去烧水，而是先去烧水，在等水开的过程中，去做洗茶杯等工作。这也是一种优化。

我们先看一个例子：

有这么两个程序：它们的目的就是将数组 x中的数，按照下标累加到数组 y中，最后在把数组 y中的数据累加到一个数dest 里面。为了验证效果，我们将这个过程重复10000遍。

Pro g 1 Pro g2

话不多说，我们看实际的结果：

这里为了说明效果，我们编译的时候，并没有采用优化（编译优化，确实可以提高程序运行的效率，但是过高的编译优化等级会有一定的副作用，另外编译器优化也具有一定的局限性，高效的代码仍然应该是我们追求的目标）。可以看到，Pro g2要明显比Prog1快。

CPU内部用来存放数据的一些小型存储区域, 注意寄存器是在CPU内部，受限于CPU的物理尺寸，寄存器数量不会太多。我们只需要记住两点：

1) 寄存器和CPU的L1 cache相比，速度虽然还在一个数量级，但是L1 cache的访问速度还是要慢几倍。具体的数据见下文表2

2) CPU只能从寄存器直接取数据或者指令，如果取不到，获取的顺序是L1->L2->L3->主存->磁盘。

从下文表2中可以看出，如果cpu的ca ch e 访问 m i ss了，性能损失还是很大的。如果内存里面再m i s s了，那对性能来说不亚于一场灾难了。

以3.3GHz的CPU为例：

表2 系统的各种延时

正如你所见，CPU周期的时间非常短，这段时间，光的速度大约只能走0.5米。想象一下，是不是非常震撼？

我们无需刻意去记住这些寄存器的名称，不同架构的寄存器的数量和名称也不一样，我们只要知道他们是cpu内部的效率极高的存储单元即可。

上面所说的计算机指的是可以执行机器指令，进行运算的机器。这是早期计算机的概念。在我们常用的PC机中，有一个芯片来完成上面所说的计算机的功能。这个芯片就是我们常说的CPU（Centr al Proc es s ing Uni t，中央处理单元）。每一种微处理器，由于硬件设计和内部结构的不同，就需要用不同的电平脉冲来控制，使它工作。所以每一种微处理器都有自己的机器指令集，也就是机器语言。