计算机组成原理之计算机的性能指标

【例 1.1】

假定计算机 M1和 M2具有相同的指令集体系结构，M1的主频为 2GHz，程序P在M1 上的运行时间为 10s。

M2 采用新技术可使主频大幅提升，但平均 CPI 也增加到 M1 的 15 倍。
则 M2 的主频至少提升到多少才能使程序P在 M2 上的运行时间缩短为 6s?

解：

程序P在M1上的时钟周期数 = 指令条数×CPI = CPU执行时间×主频=10s×2GHz=2x10¹⁰ 。
M2 的平均 CPI为 M1 的 1.5 倍，因此程序 P 在 M2 上的时钟周期数 =1.5×2×10¹⁰=3x10¹⁰ 。
要使程序 P在 M2 上的运行时间缩短到 6s，则 M2 的主频至少应为
程序P所含时钟周期数 ÷ CPU 执行时间 =3x10¹⁰ ÷ 6s = 5GHz

由此可见，M2 的主频是 M1的 2.5 倍，但 M2 的速度却只是 M1 的 1.67 倍。

(5)MIPS(Million Instructions Per Second)。

即每秒执行多少百万条指令。

1.4.6MIPS 相关的计算

【命题追踪——MIPS 相关的计算(2012、2013)】

MIPS = 指令条数 ÷ (执行时间×10⁶)= 主频 ÷ (CPIx10⁶)。

MIPS 对不同机器进行性能比较是有缺陷的，因为不同机器的指令集不同，指令的功能也就不同。

比如在机器 M1 上某条指令的功能也许在机器 M2 上要用多条指令来完成；

不同机器的 CPI和时钟周期也不同，因而同一条指令在不同机器上所用的时间也不同。

(6) FLOPS(Floating-point Operations Per Second)。

即每秒执行多少次浮点运算

1.4.7浮点数运算指标的概念

【命题追踪——浮点数运算指标的概念(2011、2021)】

MFLOPS (Million FLOPS)，即每秒执行多少百万(10⁶)次浮点运算。
GFLOPS (Giga FLOPS)，即每秒执行多少十亿(10⁹)次浮点运算。
TFLOPS (Tera FLOPS)，即每秒执行多少万亿(10¹²)次浮点运算。
PFLOPS (Peta FLOPS)，即每秒执行多少千万亿(10¹⁵)次浮点运算。
EFLOPS (Exa FLOPS)，即每秒执行多少百京(10¹⁸)次浮点运算(1京 =1亿亿 =10¹⁶)。
ZFLOPS (Zetta FLOPS)，即每秒执行多少十万京(10²¹)次浮点运算。

注意：

在描述存储容量、文件大小等时，K、M、G、T通常用2的幂次表示，如 1Kb=2¹⁰b；
在描述速率、频率等时，k、M、G、T通常用 10 的幂次表示，如 1kb/s=10³b/s。
通常前者用大写的K，后者用小写的k，但其他前缀均为大写，表示的含义取决于所用的场景

1.5基准程序

基准程序 (Benchmarks) 是专门用来进行性能评价的一组程序，能够很好地反映机器在运行实际负载时的性能，

可以通过在不同机器上运行相同的基准程序来比较在不同机器上的运行时间，从而评测其性能。

对于不同的应用场合，应该选择不同的基准程序。

使用基准程序进行计算机性能评测也存在一些缺陷，因为基准程序的性能可能与某一小段的短代码密切相关，而硬件系统设计人员或编译器开发者可能会针对这些代码片段进行特殊的优化，使得执行这段代码的速度非常快，以至于得不到准确的性能评测结果。

2.几个专业术语

1) 系列机。具有基本相同的体系结构，使用相同基本指令系统的多个不同型号的计算机组成的一个产品系列。

2) 兼容。指软件或硬件的通用性，即运行在某个型号的计算机系统中的硬/软件也能应用于另一个型号的计算机系统时，称这两台计算机在硬件或软件上存在兼容性。

3) 固件。将程序固化在ROM 中组成的部件称为固件。

固件是一种具有软件特性的硬件，吸收了软件/硬件各自的优点，其执行速度快于软件，灵活性优于硬件，是软/硬件结合的产物。

例如，目前操作系统已实现了部分固化(把软件永恒地存储于ROM 中)。

知识回顾

3.本章小结

本章开头提出的问题的参考答案如下。

1) 计算机由哪几部分组成?以哪部分为中心?

计算机由运算器、控制器、存储器、输入设备及输出设备五大部分构成，现代计算机通常把运算器和控制器集成在一个芯片上，合称中央处理器。
在微处理器面世之前，运算器和控制器分离，而且存储器的容量很小，因此设计成以运算器为中心的结构，其他部件都通过运算器完成信息的传递。
随着微电子技术的发展，同时计算机需要处理、加工的信息量也与日俱增，大量 I/O 设备的速度和 CPU 的速度差距悬殊，因此以运算器为中心的结构不能满足计算机发展的要求。
现代计算机已发展为以存储器为中心，使 I/O 操作尽可能地绕过 CPU，直接在 I/O 设备和存储器之间完成，以提高系统的整体运行效率。

2) 主频高的 CPU 一定比主频低的 CPU 快吗?为什么?

衡量 CPU 运算速度的指标有很多，不能以单独的某个指标来判断 CPU的好坏。
CPU 的主频表示 CPU 内数字脉冲信号振荡的速度，主频和实际的运算速度存在一定的关系，但目前还没有一个确定的公式能够定量两者的数值关系，因为 CPU 的运算速度还要看 CPU 的流水线的各方面的性能指标(架构、缓存、指令集、CPU 的位数、Cache 大小等)。
由于主频并不直接代表运算速度，因此在一定情况下很可能会出现主频较高的 CPU 实际运算速度较低的现象。

3) 翻译程序、汇编程序、编译程序、解释程序有什么差别?各自的特性是什么?

见常见问题和易混淆知识点 1。

4) 不同级别的语言编写的程序有什么区别?哪种语言编写的程序能被硬件直接执行?

机器语言和汇编语言与机器指令对应，而高级语言不与指令直接对应，具有较好的可移植性。
其中机器语言编写的程序可以被硬件直接执行。

4.常见问题和易混淆知识点

1.翻译程序、解释程序、汇编程序、编译程序的区别和联系是什么?

翻译程序有两种：

一种是编译程序，它将高级语言源程序一次全部翻译成目标程序，只要源程序不变，就无须重新翻译。

另一种是解释程序，它将源程序的一条语句翻译成对应的机器目标代码，并立即执行，然后翻译下一条源程序语句并执行，直至所有源程序语句全部被翻译并执行完。

所以解释程序的执行过程是翻译一句执行一句，并且不会生成目标程序。

汇编程序也是一种语言翻译程序，它把汇编语言源程序翻译为机器语言程序。

编译程序与汇编程序的区别：若源语言是诸如C、C++、Java 等“高级语言”，而目标语言是诸如汇编语言或机器语言之类的“低级语言"，则这样的一个翻译程序称为编译程序。

若源语言是汇编语言，而目标语言是机器语言，则这样的一个翻译程序称为汇编程序。

2.什么是透明性?透明是指什么都能看见吗?

在计算机领域中，站在某类用户的角度，若感觉不到某个事物或属性的存在，即“看”不到某个事物或属性，则称为“对该用户而言，某个事物或属性是透明的”。

这与日常生活中的“透明”概念(公开、看得见)正好相反。

例如，对于高级语言程序员来说，浮点数格式、乘法指令等这些指令的格式、数据如何在运算器中运算等都是透明的；

而对于机器语言或汇编语言程序员来说，指令的格式、机器结构、数据格式等则不是透明的。

在 CPU 中，IR、MAR 和 MDR 对各类程序员都是透明的。

3.字、字长、机器字长、指令字长、存储字长的区别和联系是什么?

字长是指 CPU 内部用于整数运算的数据通路的宽度，因此字长等于 CPU 内部用于整数运算的运算器位数和通用寄存器宽度，它反映了计算机处理信息的能力。

字和字长的概念不同。字用来表示被处理信息的单位，用来度量数据类型的宽度，如x86 机器中将一个字定义为 16 位。

指令字长：一个指令字中包含的二进制代码的位数。

存储字长：一个存储单元存储的二进制代码的位数。

它们都必须是字节的整数倍。

指令字长一般取存储字长的整数倍，若指令字长等于存储字长的2倍，则需要2个访存周期来取出一条指令；

若指令字长等于存储字长，则取指令周期等于机器周期。

早期的存储字长一般与指令字长、字长相等，因此访问一次主存储器便可取出一条指令或一个数据。

随着计算机的发展，指令字长、字长都可变，但必须都是字节的整数倍。

4.计算机体系结构和计算机组成的区别和联系是什么?

计算机体系结构是指机器语言或汇编语言程序员所看得到的传统机器的属性，包括指令集、数据类型、存储器寻址技术等，大都属于抽象的属性。

计算机组成是指如何实现计算机体系结构所体现的属性，它包含许多对程序员来说透明的硬件细节。

例如，指令系统属于结构的问题，但指令的实现即如何取指令、分析指令、取操作数、如何运算等都属于组成的问题。

因此，当两台机器的指令系统相同时，只能认为它们具有相同的结构，至于这两台机器如何实现其指令，则完全可以不同，即可以认为它们的组成方式是不同的。

例如，一台机器是否具备乘法指令是一个结构的问题，但实现乘法指令采用什么方式则是一个组成的问题。

许多计算机厂商提供一系列体系结构相同的计算机，而它们的组成却有相当大的差别，即使是同一系列的不同型号机器，其性能和价格差异也很大。

5.基准程序执行得越快说明机器的性能越好吗?

一般情况下，基准测试程序能够反映机器性能的好坏。但是，由于基准程序中的语句存在频度的差异，因此运行结果并不能完全说明问题。