MMU&Cache - 悦读

MMU的地址转换：http://chenyq2008.spaces.live.com/blog/cns!F73164AC8D0D8D50!254.entry

cache介绍和原理:http://chenyq2008.spaces.live.com/blog/cns!F73164AC8D0D8D50!226.entry

cache详细介绍：http://blog.csdn.net/gooogleman/archive/2009/01/05/3709975.aspx （这个没怎么看明白）

启动时二级页表设置：http://topic.csdn.net/u/20081231/10/bbde79c2-2884-48e3-9718-90d7fcc1afa8.html 44楼

一级页表设置在startup.s/eboot里面 ，参考http://blog.csdn.net/chinesedragon2010/archive/2010/10/05/5922489.aspx

1. MMU

MMU：memory management unit，称为内存管理单元，或者是存储器管理单元，MMU是硬件设备，它被保存在主存(main memory)的两级也表控制，并且是由协处理器CP15的寄存器1的M位来决定是enabled还是disabled。MMU的主要作用是负责从CPU内核发出的虚拟地址到物理地址的映射，并提供硬件机制的内存访问权限检查。MMU使得每个用户进程拥有自己的地址空间(对于WINCE5.0，每个进程是32MB;而对于WINCE6.0，每个进程的独占的虚拟空间是2GB)，并通过内存访问权限的检查保护每个进程所用的内存不被其他进程破坏。

下面是MMU提供的功能和及其特征

2. VA和PA

VA：virtual address称为虚拟地址，PA：physical address称为物理地址。CPU通过地址来访问内存中的单元，如果CPU没有MMU，或者有MMU但没有启动，那么CPU内核在取指令或者访问内存时发出的地址(此时必须是物理地址，假如是虚拟地址，那么当前的动作无效)将直接传到CPU芯片的外部地址引脚上，直接被内存芯片(物理内存)接收，这时候的地址就是物理地址。如果CPU启用了MMU(一般是在bootloader中的eboot阶段的进入main()函数的时候启用)，CPU内核发出的地址将被MMU截获，这时候从CPU到MMU的地址称为虚拟地址，而MMU将这个VA翻译成为PA发到CPU芯片的外部地址引脚上，也就是将VA映射到PA中。MMU将VA映射到PA是以页(page)为单位的，对于32位的CPU，通常一页为4k，物理内存中的一个物理页面称页为一个页框(page frame)。虚拟地址空间划分成称为页（page）的单位,而相应的物理地址空间也被进行划分，单位是页框(frame).页和页框的大小必须相同。

3. VA到PA的映射过程

首先将CPU内核发送过来的32位VA[31:0]分成三段，前两段VA[31:20]和VA[19:12]作为两次查表的索引，第三段VA[11:0]作为页内的偏移，查表的步骤如下：

⑴从协处理器CP15的寄存器2(TTB寄存器，translation table base register)中取出保存在其中的第一级页表(translation table)的基地址，这个基地址指的是PA，也就是说页表是直接按照这个地址保存在物理内存中的。

⑵以TTB中的内容为基地址，以VA[31:20]为索引值在一级页表中查找出一项(2^12=4096项)，这个页表项(也称为一个描述符，descriptor)保存着第二级页表(coarse page table)的基地址，这同样是物理地址，也就是说第二级页表也是直接按这个地址存储在物理内存中的。

⑶以VA[19:12]为索引值在第二级页表中查出一项(2^8=256)，这个表项中就保存着物理页面的基地址，我们知道虚拟内存管理是以页为单位的，一个虚拟内存的页映射到一个物理内存的页框，从这里就可以得到印证，因为查表是以页为单位来查的。

⑷有了物理页面的基地址之后，加上VA[11:0]这个偏移量(2^12=4KB)就可以取出相应地址上的数据了。

这个过程称为Translation Table Walk，Walk这个词用得非常形象。从TTB走到一级页表，又走到二级页表，又走到物理页面，一次寻址其实是三次访问物理内存。注意这个“走”的过程完全是硬件做的，每次CPU寻址时MMU就自动完成以上四步，不需要编写指令指示MMU去做，前提是操作系统要维护页表项的正确性，每次分配内存时填写相应的页表项，每次释放内存时清除相应的页表项，在必要的时候分配或释放整个页表。

4. CPU访问内存时的硬件操作顺序

CPU访问内存时的硬件操作顺序，各步骤在图中有对应的标号：

1 CPU内核(图中的ARM)发出VA请求读数据，TLB(translation lookaside buffer)接收到该地址，那为什么是TLB先接收到该地址呢？因为TLB是MMU中的一块高速缓存(也是一种cache，是CPU内核和物理内存之间的cache)，它缓存最近查找过的VA对应的页表项，如果TLB里缓存了当前VA的页表项就不必做translation table walk了，否则就去物理内存中读出页表项保存在TLB中，TLB缓存可以减少访问物理内存的次数。

2 页表项中不仅保存着物理页面的基地址，还保存着权限和是否允许cache的标志。MMU首先检查权限位，如果没有访问权限，就引发一个异常给CPU内核。然后检查是否允许cache，如果允许cache就启动cache和CPU内核互操作。

3 如果不允许cache，那直接发出PA从物理内存中读取数据到CPU内核。

4 如果允许cache，则以VA为索引到cache中查找是否缓存了要读取的数据

，如果cache中已经缓存了该数据(称为cache hit)则直接返回给CPU内核，如果cache中没有缓存该数据(称为cache miss)，则发出PA从物理内存中读取数据并缓存到cache中，同时返回给CPU内核。但是cache并不是只去CPU内核所需要的数据，而是把相邻的数据都去上来缓存，这称为一个cache line。ARM920T的cache line是32个字节，例如CPU内核要读取地址0x30000134~0x3000137的4个字节数据，cache会把地址0x30000120~0x3000137(对齐到32字节地址边界)的32字节都取上来缓存。

5. ARM920T支持多种尺寸规格的页表

ARM体系结构最多使用两级页表来进行转换，页表由一个个条目组成，每个条目存储一段虚拟地址对应的物理地址及访问权限，或者下一级页表的地址。S3C2443最多会用到两级页表，已段(section，大小为1M)的方式进行转换时只用到一级页表，以页(page)的方式进行转换时用到两级页表。而页的大小有3种：大页(large pages，64KB)，小页(small pages，4KB)和极小页(tiny pages，1KB)。条目也成为描述符，有段描述符、大页描述符、小页描述符和极小页描述符，分别保存段、大页、小页和极小页的起始物理地址，见下图

MMU的查表过程，首先从CP15的寄存器TTB找到一级页表的基地址，再把VA[31:20]作为索引值从表中找出一项，这个表项称为一级页描述符(level one descriptor)，一个这样的表项占4个字节，那么一级页表需要保存的物理内存的大小是4*4096=16KB，表项可以是一下四种格式之一：

⑴如果描述符的最低位是00，属于fault格式，表示该范围的VA没有映射到PA。

⑵如果描述符的最低位是10，属于section格式，这种格式没有二级页表而是直接映射到物理页面，一个色彩体哦你是1M的大页面，描述符中的VA[31:20]就是这个页面的基地址，基地址的VA[19:0]低位全为0，对齐到1M地址边界，描述符中的domain和AP位控制访问权限，C、B两位控制缓存。

⑶如果描述符的最低两位是01或11，则分别对应两种不同规格的二级页表。根据地址对齐的规律想一下，这两种页表分别是多大？从一级描述符中取出二级页表的基地址，再把VA的一部分作为索引去查二级描述符(level two descriptor)，如果是coarse page，则VA[19:12](2^8=256)作为查找二级页表表项的索引；如果是fine page，则VA[19:10](2^10=024)。二级描述符可以是下面四种格式之一：

二级描述符最低两位是00是属于fault格式，其它三种情况分别对应三种不同规格的物理页面，分别是large page(64KB)、small page(4KB)和tiny page(1KB)，其中large page和small page有4组AP权限位，每组两个bit，这样可以为每1/4个物理页面分别设置不同的权限，也就是说large page可以为每16KB设置不同的权限，small page可以为每1KB设置不同的权限。

ARM920T提供了多种页表和页面规格，但操作系统只采用其中一种，WINCE采用的就是一级描述符是coarse page table格式(也即由VA[19:12]来作为查找二级页表项的索引)，二级描述符是small page格式(也即是VA[11:0]来作为查找物理页面偏移量的索引)，每个物理页面大小是4KB。

根据上图我们来分析translation table walk的过程

⑴VA被划分为三段用于地址映射过程，各段的长度取决于页描述符的格式。

⑵TTB寄存器中只有[31:14]位有效，低14位全为0，因此一级页表的基地址对齐到16K地址边界，而一级页表的大小也是16K。

⑶一级页表的基地址加上VA[31:20]左移两位组成一个物理地址。想一想为什么VA[31:20]要左移两位占据[13:2]的位置，而空出[1:0]两位呢？应该是需要空出最低两位用于表示当前要寻找的一级描述符是coarse page格式，目前不清楚，有待了解。

⑷用这个组装的物理地址从物理内存中读取一级页表描述符，这是一个coarse page table格式的描述符。

⑸通过domain权限检查后，coarse page table的基地址再加上VA[19:12]左移两位组装成一个物理地址。

⑹用这个组装的物理地址从物理内存中读取二级页表描述符，这是一个small page格式的描述符。

⑺通过AP权限检查后，small page的基地址再加上VA[11:0]就是最终的物理地址了。

本文来自CSDN博客，转载请标明出处：http://blog.csdn.net/chinesedragon2010/archive/2010/10/05/5922324.aspx

cache的一致性
先理解cache的作用
CPU 在访问内存时，首先判断所要访问的内容是否在Cache中，如果在，就称为“命中（hit）”，此时CPU直接从Cache中调用该内容；否则，就称为“ 不命中”，CPU只好去内存中调用所需的子程序或指令了。CPU不但可以直接从Cache中读出内容，也可以直接往其中写入内容。由于Cache的存取速率相当快，使得CPU的利用率大大提高，进而使整个系统的性能得以提升。

Cache的一致性就是直Cache中的数据，与对应的内存中的数据是一致的。

DMA是直接操作总线地址的，这里先当作物理地址来看待吧（系统总线地址和物理地址只是观察内存的角度不同）。如果cache缓存的内存区域不包括DMA分配到的区域，那么就没有一致性的问题。但是如果cache缓存包括了DMA目的地址的话，会出现什么什么问题呢？

问题出在，经过DMA操作，cache缓存对应的内存数据已经被修改了，而CPU本身不知道（DMA传输是不通过CPU的），它仍然认为cache中的数据就是内存中的数据，以后访问Cache映射的内存时，它仍然使用旧的Cache数据。这样就发生Cache与内存的数据“不一致性”错误。