Bootstrap

【STM32】存储分析深入——堆栈与map文件

0 前言

  最近在研究STM32的内存管理,看到网上流传的一个基于全局变量数组来实现malloc和free函数的例程,感觉有点奇怪:这个函数真的有意义吗?为了解答疑惑,查了一些关于堆栈的资料,有所解惑,特此记录。
  本篇文章主要介绍堆栈的相关知识和应用,如果想知道STM32存储器相关的内容,可以翻阅前期教程。

前期教程:【STM32】存储器和位带映射(bit band mapping)

1 堆栈的含义

  虽然说STM32是单片机,但一些计算机的基本概念还是和PC机是一致的。首先需要明确,堆栈都是在“内存”上的,即所谓的RAM,而不是“存储”,ROM/Flash。
  虽然常把堆和栈放在一起说,但其实这是两个东西。栈区(Stack) 是由编译器分配和释放的,一般是用来存储在函数中定义的局部变量,以及中断时存储的程序运行的状态量,用来保护现场,如PC指针等。堆区(Heap) 是由程序员手动分配和释放,如果不释放,程序结束时会由系统回收,但也可能会造成内存泄漏。注意,栈区是从高地址(即栈顶指针)开始,然后栈指针向低地址移动,操作方式类似于数据结构中的栈,即先入后出;堆区是从低地址开始,然后堆指针向高地址移动,但他和数据结构中的堆没有什么关系
  总的来说,堆栈就是RAM中用来存储一些局部变量的区域,但是一个是编译器自动控制的,另一个是可以由程序员控制的。

2 STM32的RAM和ROM

  接下来将主要介绍在STM32中和堆栈相关的知识和注意事项。

2.1 项目编译文件的各个部分

  相信使用过Keil的人都会注意到编译之后在输出窗口会显示编译得到的二进制文件各个部分的大小:

在这里插入图片描述

随便查一下资料,即可得知各个部分所代表的含义:

  • Code:纯代码文件在Flash中占的空间
  • RO-data:只读数据,代码中常量的大小,用const关键词修饰的变量
  • RW-data:可读可写数据,代码中初始化不为0的全局变量和静态变量
  • ZI-data:Zero Initialized Data,指初始化为0的全局变量和静态变量

这其实是和正常的C/C++编译之后得到的几个部分是对应的:

  1. 全局区(静态区)(static)—— 全局变量和静态变量的存储是放在一块的,初始化了的(一般也就不为0)全局变量和静态变量在一块区域, 未初始化的全局变量和未初始化的静态变量在相邻的另一块区域。【这两部分分别对应RW-data和ZI-data】。全局区在程序结束后由系统释放。
  2. 文字常量区—— 常量字符串就是放在这里的。 程序结束后由系统释放。【对应RO-data】
  3. 程序代码区——存放函数体的二进制代码【对应Code区】
  4. 另外还有堆区和栈区,这部分其实已经包含在以上的RAM部分了

  芯片手册中一般只会写RAM和Flash的大小,所以还需要明白包含关系:

  • Flash_size = Code + RO-data + RW-data
  • RAM_size = RW-data + ZI-data

可以发现,RW-data部分在Flash和RAM中都占空间,这是因为这部分是初始化不为0的全局变量或静态变量,因此这部分要存储在flash中,使得数据掉电不消失,上电运行时,这部分又需要加载到内存当中用作程序访问,因此会同时占用Flash和RAM。ZI-data上电运行时自动初始化为0。

  如果不确信的,可以看一下map文件:

在这里插入图片描述
然后一直滑到最底下:

在这里插入图片描述

如果没有map文件,可以看一下项目属性中Listing是否有设置(默认都是有设置的):
在这里插入图片描述

2.2 RAM的结构

  再来看看RAM具体的结构,上面提到的ZI-data其实就包含了堆区和栈区,因为这两个存储临时变量的区域初始化为0完全合理。所以最后RAM的结构如下图所示:

在这里插入图片描述

图片来源

其中,最底下的静态存储区就是包含了初始化为0和初始化不为0的全局/静态变量,即RW-data + ZI-data的一部分。

2.3 设置堆栈的大小

  从上面那张图也可以看出,堆和栈实际上是挨着的,一个从高地址向下生长,一个从低地址向上生长,且都设置了一个最大值。如果在函数中定义了较大的局部变量(占内存很大),就有可能导致栈溢出,那么这个时候就需要调整栈的大小了。

这里有一点需要特别注意,函数中定义的局部变量是不占RAM和Flash大小的(上面提到的各个分区也不包含局部变量),也就是说所谓栈溢出通常不是在编译时就能看出来的,而是运行过程中报错才能发现(一般就是进某个Error_Handler函数死循环)

  设置方法还是很简单的,直接在启动文件(.s)中修改即可:

在这里插入图片描述

或者使用图形化界面:

在这里插入图片描述
在这里插入图片描述

堆栈大小直接影响了ZI-data的大小。

3 map文件结构梳理

  前面提到这个map文件,如果想要对项目的各个部分的存储占用有了解,一定得会看,虽然内容很多,但首先还是要掌握文件的结构:
在这里插入图片描述

  map文件一共有六个模块:

  • Section Cross References:展示各个函数交叉调用关系,这决定了之后linker怎么链接
  • Removing Unused input sections from the image:移除未被调用的模块,主要是未使用的外设,这说明其实在项目里面添加用不到的外设文件并不会增加编译后的文件大小
  • Image Symbol Table:符号映像表,分为local symbol和global symbol,主要是一些重要变量的取值,比如各种外设的地址等
  • Memory Map of the image:存储映像表,介绍了ROM和RAM的分配情况,哪个部分地址多少,size大小等信息,如果想针对性地优化代码的体积,可以重点研究一下这部分内容
  • Image component sizes:各个目标文件(.o)占各个存储区域的大小,如果要优化代码体积,这个部分也需要看
  • 加上最后各个部分的存储总和

参考链接

4 扩展:如何自定义栈顶指针?

  从上面对栈的介绍来看,根据默认的编译器设置,栈顶指针其实就是程序编译RAM大小的最高地址,那这样其实存在一个问题,栈顶地址到芯片最大RAM地址之间的这部分存储没有被使用,“被浪费掉了”,加上栈大小其实不好设定,那么最好的办法就是把栈顶指针设置为芯片最大RAM的地址,然后栈大小尽可能设得大一些。这样可以最大程度使用RAM来保证程序不会栈溢出。

  在网上找到了两种办法,下面分别介绍:

方法一:相对简单,只需要修改启动文件

  直接修改.s文件即可:

在这里插入图片描述

改完之后的代码如下所示:

Stack_Size      EQU     0x00000400
	
ADDR_STACK_TOP 	EQU 	0x20020000
; 0x2001FC00 = ADDR_STACK_TOP - Stack_Size
				AREA 	|.ARM.__AT_0x2001FC00|, DATA, NOINIT, READWRITE, ALIGN=3
;                AREA    STACK, NOINIT, READWRITE, ALIGN=3
Stack_Mem       SPACE   Stack_Size
__initial_sp

参考链接

方法二:相对复杂,但启动文件改动不多

  • 1 在启动文件中按正常操作修改栈大小;

  • 2 修改sct文件(在objects文件夹下),如下所示在这里插入图片描述

    RW_IRAM2 0x20004800 UNINIT 0x00000800 {  ; STACK ADDRESS
         startup_stm32f10x_md.o (STACK)
    }
    RW_IRAM3 0x20004600 UNINIT 0x00000200 {  ; HEAP ADDRESS
         startup_stm32f10x_md.o (HEAP)
    }
    

    注意:这里栈大小要和前面设置的栈大小一致,否则将以第一个为准。此外,需要根据启动文件修改,sd,md,ld不能错。

  • 3 在项目属性中使能该sct文件:
    在这里插入图片描述

参考链接

  怎么检验此时的栈顶指针有按照想法设置为RAM的最大地址呢?也有两个办法:

  • 1 查看map文件。可以直接搜索initial
    在这里插入图片描述
  • 2 仿真运行(debug),查看初始时刻SP指针的值,看是不是RAM最大地址
    在这里插入图片描述

结论:

  实测发现方法一map文件显示是对的,但是仿真时初始化失败,体现为SystemInit函数卡住,不可行;方法二两个值都是对上的,可行。

  但是,从这个流程来看,自定义栈顶指针真的有意义吗?在我看来,用处不大,从结果来看,只是改动了栈顶地址,也就改动了栈底地址,相当于使得栈和堆不是连在一起的,超过栈范围该溢出还是得溢出。还不如直接一点,修改栈大小,然后编译器根据编译结果自动分配一个栈顶指针。

5 如何在运行过程中获取栈指针

  不太懂这个有什么作用,权当记录一下

在这里插入图片描述

参考链接

6 malloc和free

  回到最开始的问题:那种用全局数组变量定义内存池再基于此实现malloc和free的方法真的有意义吗?
  按照最开始的理论,malloc和free就是程序员控制的申请和释放内存的接口,操作的内存区域为堆区,但全局变量使用的是RAM低地址部分,并不是堆区,也就是说,使用malloc并不能按照设想中的节省内存,反而如果申请的内存体积小,还会浪费内存。

  补充一点malloc/free的基本知识。虽然说malloc/free可以做到使用一点申请一点,避免造成内存的浪费,但它有一个很严重的问题,就是 会造成内存的不连续 ,比如有10M的空间,申请3M,再申请5M,再释放掉一开始申请的3M,理想中还剩10-3-5+3=5M空间,但是由于不连续的问题,此时还剩的空间是max(10-3-5, 3)=3M空间,另外的2M就有点浪费,只有下次申请的空间小于等于2M,这里才能派上用场。
  对于这种空间不连续的问题,目前主要采用的办法就是分块+链表,即将一定大小的内存定义为块,是每次申请内存的最小单位,每个最小单位之间是通过链接连接的,而不是单纯的连续地址,这样能在一定程度上解决内存碎片的问题,但这些也是要运行代码的,会占据工作量,所以一般会在系统中增加MMU(内存管理单元)来减轻CPU管理内存的负担。而在单片机中,是不存在这种东西的,所以并不推荐使用malloc/free。
  此外,malloc/free实际的使用效率要更低,在这篇文章中,分别对比了多次使用malloc/free操作大内存,小内存,和直接使用局部变量方式的区别,发现前者效率都更低。所以 malloc/free适用于大内存申请,且不频繁的场景
  还有,在一些对安全要求较为严格的行业,malloc/free会带来不可预测性,在多核系统上开发多线程C语言可能会有问题。
  说了这么多,好像这个malloc就一无是处了?如果是自己编程,建议是能不用就不用,完全可以用定义局部变量来代替。但是,我也发现了一个很重要的使用场景,就是兼容第三方库,因为管不着别人使用,hh。【案例

7 总结

  本文从malloc/free函数的使用出发,详细介绍了单片机中堆栈的使用,分配和设置,解析了单片机中RAM和Flash的结构,对于深入理解芯片存储的使用有很大帮助,最后也基于调研分析了malloc/free函数的优势和弊端,希望能有所帮助。

;