Bootstrap

性能优化--CPU微架构

指令集架构

Intel X86, ARM v8, RISC-V 当今广泛使用指令架构实例

大多数现代架构可以归类基于通用寄存器加载存储架构在这种架构下操作数明确指定只能使用夹在存储指令访问内存提供基本功能之外广泛部署架构还在集训增强ISA 支持计算方式包括增强向量处理指令(例如Intel AVX2, AVX512 ARM SVE)矩阵指令使用这些高级指令软件往往在性能上几个数量级提升

指令流水线

流水线加快CPU速度基础技术指令可以重叠执行

指令执行过程1 指令2 译码 3 执行 4 访问内存 5 回写

第一个时钟周期指令x进入流水线IF阶段在第二时钟周期指令x进入译码ID阶段程序下一条指令进入取指IF阶段以此类推整个流水线满载75时钟周期所示CPU所有流水线阶段忙于处理不同指令如果没有流水线指令x + 1就需要等到指令x执行完毕才能开始执行

流水线机器每条指令执行时间 = 流水线机器每条指令执行执行时间/ 流水线阶段

在现代CPU所有类别冒险都是硬件处理

结构冒险

由资源冲突而导致,在很大程度上,可以通过复制硬件资源 如使用多端口寄存器或者存储器 来消除。然而,要消除所有这些冒险,在硅面积和功耗方面成本可能会变得非常高昂。

数据冒险

Read after write. 冒险要求相关读取操作写入操作执行指令x + 1 上一条指令x写入某个位置之前读取同一位置就会发生这种冒险从而导致读取错误的值CPU通过实现流水线后期阶段早期阶段数据转发减轻RAW冒险相关损失这个想法指令x完全完成之前指令x结果可以转发指令x+1我们看一下例子

R1 = R0 ADD 1

R2 = R1 ADD 2

高速缓存

m关联告诉缓存中每个缓存块都有一个与其关联地址标签此外标签包含诸如标记数据有效有效位之类的状态标签还可以包含其他指示访问信息共享信息这些内容将在后面章节描述

11展示如何使用流水线生成地址查找高速缓存最低顺序地址定义了给定偏移量偏移量32字节缓存行需5位。64字节缓存行需要6位) 则是基于上述公式使用索引来选择一旦选定就可以使用标签组中所有标签进行比较如果其中一个标签传入请求标签匹配并且设置了有效缓存命中条目关联数据

地址

标签索引 偏移量

缓存未命中

典型替换算法最近最少使用(Least Recently Used, LRU)策略最近访问次数最少缓存被释放未命中地址腾出缓冲空间另一种可选算法随机选择一个缓存块作为牺牲对象大多数CPU硬件定义这些功能

管理操作

CPU设计使用两种基本机制处理高速缓存缓存命中写入操作

直达(Write-Through)高速缓存命中数据同时写入缓存块层次结构较低层级

回写(Write Back)高速命中数据写入缓存

写入未命中分配Write-Allocate 或者读取Fetch高速缓存中未命中位置数据层次结构较低层级家在高速缓存随后写入命中情况一样处理剩余写入操作

假如高速缓存使用分配(no-write-allocate)策略写入命中事物直接发送层次结构所有较低层级并且缓存块不会夹在高速缓冲中

平均访问时延 = 命中花费时间 + 命中比例 x 命中花费的时间

硬件和软件预取技术

减少缓存命中以及后续停顿方法之一就是先于流水线需要指令数据预取高速缓冲不同层级prefetch指令

主存

就是常说内存大多数CPU都支持主流DRAM技术DDRDRAM技术历史上DRAM带宽每一代都得到提升延迟保持不变甚至更高2展示最新三代DDR技术最高数据速率对应延迟数据速率每秒百万传输次数(10^6)单位度量

DDR3 2133 10.3ns

DDR4 3200 12.5ns

DDR5 6400 14

虚拟内存

虚拟地址包含两部分

虚拟编号 偏移量

页表 物理地址 主存

单指令多数据处理器

simd SIMD处理器中指令通常单个时钟周期使用许多独立功能单元多个数据元素进行操作向量矩阵科学计算非常适合SIMD架构因为向量或者矩阵每个元素都需要使用相同指令进行处理

;