Bootstrap

C语言高级-内存解读+字符串+结构体+共用体+大小端+枚举

第一点:

内存解读-栈、堆、数据区

内存是由操作系统统一进行管理的,为了内存的管理方便又合理,操作系统提供了多种管理方式,我们要根据自己的需求去选择合适的内存管理机制;

在一个C语言程序中,能够获取内存的就只有三种情况,分别是栈、堆、数据区;

对栈的解读:

运行时自动分配&自动回收:栈是自动管理的,程序员不需要手工干预。方便简单。
反复使用:栈内存在程序中其实就是那一块空间,程序反复使用这一块空间。
脏内存:栈内存由于反复使用,每次使用后程序不会去清理,因此分配到时保留原来的值。
临时性:(函数不能返回栈变量的指针【这个栈变量的指针就是这个栈区的首地址】,因为这个空间是临时的,所以下次再用的时候,这个地址不一定就是上次那个了)通俗的讲,就是你需要的时候给你找个地方,等你用完这个地方就释放了,你下次再用的话,就不一定是上次那个地方了,
栈会溢出:因为操作系统事先给定了栈的大小,如果在函数中无穷尽的分配栈内存总能用完。

对堆的解读:

操作系统堆管理器管理:堆管理器是操作系统的一个模块,堆管理内存分配灵活,按需分配。
大块内存:堆内存管理者总量很大的操作系统内存块,各进程可以按需申请使用,使用完释放。
程序手动申请&释放:手工意思是需要写代码去申请malloc和释放free。
脏内存:堆内存也是反复使用的,而且使用者用完释放前不会清除,因此也是脏的。
临时性:堆内存只在malloc和free之间属于我这个进程,而可以访问。在malloc之前和free之后, 都不能再访问,否则会有不可预料的后果。

利用malloc和free申请和释放内存的步骤如下: 

由上图可以看到malloc的返回值是void *类型,具体的详细讨论下

(1)void *是个指针类型,malloc返回的是一个void *类型的指针,实质上malloc返回的是堆管理器分配给我本次申请的那段内存空间的首地址(malloc返回的值其实是一个数字,这个数字表示一个内存地址)。为什么要使用void *作为类型?主要原因是malloc帮我们分配内存时只是分配了内存空间,至于这段空间将来用来存储什么类型的元素malloc是不关心的,由我们程序自己来决定。比如上上图中我们定义的int*类型的元素,我们也可以定义char*类型的存储数据;
(2)什么是void类型。早期被翻译成空型,这个翻译非常不好,会误导人。void类型不表示没有类型,而表示万能类型。void的意思就是说这个数据的类型当前是不确定的,在需要的时候可以再去指定它的具体类型。void *类型是一个指针类型,这个指针本身占4个字节,但是指针指向的类型是不确定的,换句话说这个指针在需要的时候可以被强制转化成其他任何一种确定类型的指针,也就是说这个指针可以指向任何类型的元素。
(3)malloc的返回值:成功申请空间后返回这个内存空间的指针,申请失败时返回NULL。所以malloc获取的内存指针使用前一定要先检验是否为NULL。
(4)malloc申请的内存时用完后要free释放。free(p); 这个p里面存放的就是地址;会告诉堆管理器这段内存我用完了你可以回收了。堆管理器回收了这段内存后这段内存当前进程就不应该再使用了。因为释放后堆管理器就可能把这段内存再次分配给别的进程,所以你就不能再使用了。
(5)再调用free归还这段内存之前,指向这段内存的指针p一定不能丢(也就是不能给p另外赋值)。因为p一旦丢失这段malloc来的内存就永远的丢失了(内存泄漏),直到当前程序结束时操作系统才会回收这段内存。

对数据区的解读:

在数据区里面,我们又分为好几类;编译器在编译程序的时候,将程序中的所有元素分成了一些组成部分,各部分组成一个段,分别是:代码段(就是程序中的可执行部分、直观理解就是函数堆叠出来的)、数据段(也被称为静态数据区、静态区。直观来讲就是程序中的全局变量)、bss段(直白讲,其实也就是数据段,就是被初始化为0的数据段)

有些特殊数据会被放到代码段:

(1)C语言中使用char *p = "linux";定义字符串时,字符串"linux"实际被分配在代码段,也就是说这个"linux"字符串实际上是一个常量字符串而不是变量字符串。//是不是可以理解常数变量存放在代码段???【有时候放在代码段的不只是代码,还有const类型的常量,还有字符串常量。(const类型的常量、字符串常量有时候放在只读段,有时候放在代码段,取决于平台
(2)const型常量:C语言中const关键字用来定义常量,常量就是不能被改变的量。const的实现方法至少有2种:第一种就是编译将const修饰的变量放在代码段去以实现不能修改(普遍见于各种单片机的编译器);第二种就是由编译器来检查以确保const型的常量不会被修改,实际上const型的常量还是和普通变量一样放在数据段的(gcc中就是这样实现的)。


放在数据段的变量有2种:

(1)显式初始化为非零的全局变量。

(2)静态局部变量;也就是static修饰的局部变量。(普通局部变量分配在栈上,静态局部变量分配在数据段)也就是说在函数内部如果被static修饰的局部变量就是静态局部变量,他是被存储在数据段的。

text segment

存储代码的区域。

data segment

存储初始化不为0的全局变量和静态变量、const型常量。

bss segment

存储未初始化的、初始化为0的全局变量和静态变量。

heap(堆)

用于动态开辟内存空间。

memory mapping space

(内存映射区)

mmap系统调用使用的空间,通常用于文件映射到内存或匿名映射(开辟大块空间),当malloc大于128k时(此处依赖于glibc的配置),也使用该区域。在进程创建时,会将程序用到的平台、动态链接库加载到该区域。

stack(栈)

存储函数参数、局部变量。

kernel space

存储内核代码。

说一下个人的理解:

栈、堆、数据区是内存管理的三大部分。在这三部分中,每种方式都对应着相应类型的数据;

栈就对应着函数内部定义的局部变量,自动开放和释放;

数据区对应着全局变量和函数内部的静态局部变量(static);以及其他的可执行部分代码的空间。

堆的感觉就感觉更灵活一点,他里面什么都可以存,不像栈和数据区,他们是固定的必须存什么,但是堆就是如果我需要一个比较大的空间,那我就去手动申请,对于任何用户都是一样的权限,在malloc和free之间我存的任何东西都是存在堆里面,它就好像是我们生活中常见的图书馆,谁要想读书都可以去里面学习;

再举个通俗一点的例子:比如总共有500亩地,有五个用户,那我们先留取450亩地作为我们的公用地(也就是栈,谁都可以去申请使用,使用完释放归还就可以了)剩下的50亩地,我们分为5个用户没人10亩(也就是栈,在这些地里,因为是分到个人手里,所以你可以自由支配,但是每次函数调用这些变量就像这50亩地又打乱重分,所以每次的地址都不尽相同)。

第二点:

字符串详解(sizeof、strlen)

对字符串的理解

c语言中定义一个字符串的方法:char *p = "linux";此时p就叫做字符串,但是实际上p只是一个字符指针(本质上就是一个指针变量,只是p指向了一个字符串的起始地址而已)。p定义在栈上,因为他是局部变量,但是linux定义在代码段,然后p指向linux的首元素,也就是把‘l’的地址存放在p所开拓的四字节空间里。

字符串中“\0”的对比解释

C语言中字符串有3个核心要点:第一是用一个指针指向字符串头;第二是固定尾部(字符串总是以'\0'来结尾);第三是组成字符串的各字符彼此地址相连。
'\0'是一个ASCII字符,其实就是编码为0的那个字符('\0'是真正的0,和数字0是不同的,数字0有它自己的ASCII编码)。要注意区分'\0'和'0'和0.(0等于'\0','0'等于48)


sizeof、strlen之间的细节(对照内存第五点)

sizeof是C语言的一个关键字,也是C语言的一个运算符(sizeof使用时是sizeof(类型或变量名),所以很多人误以为sizeof是函数,其实不是),sizeof运算符用来返回一个类型或者是变量所占用的内存字节数。
strlen是一个C语言库函数,这个库函数的原型是:size_t strlen(const char *s);这个函数接收一个字符串的指针,返回这个字符串的长度(以字节为单位)。注意一点是:strlen返回的字符串长度是不包含字符串结尾的'\0'的。我们为什么需要strlen库函数?因为从字符串的定义(指针指向头、固定结尾、中间依次相连)可以看出无法直接得到字符串的长度,需要用strlen函数来计算得到字符串的长度。

分析以上代码可以得出以下结论:

sizeof(数组名)得到的是数组的元素个数*定义他的数据类型所占的字节数(上图中为char类型,只占一个字节),和数组中有无初始化,初始化多、少等是没有关系的,也就是数组中定义多少元素,sizeof(数组名)得到的值就是元素数乘他的定义类型所占的字节数!

通过strlen是用来计算字符串的长度的,只能传递合法的字符串进去才有意义,如果随便传递一个字符指针,但是这个字符指针并不是字符串是没有意义的。就像上面的代码示例,你传进去什么值,它就只计算这几个值的个数,遇到0就会停止计算,比如char a[5]="lin" 虽然定义了5个数组元素的长度,但其实只传了3个合法的字符,strlen就会认为第四位是0,而0等于'\0',所以默认退出!

字符数组和字符串之间的区别(内存分配角度)

字符数组和字符串有本质差别。字符数组本身是数组,数组自身自带内存空间,可以用来存东西(所以数组类似于容器);而字符串本身是指针,本身永远只占4字节,而且这4个字节还不能用来存有效数据,所以只能把有效数据存到别的地方,然后把地址存在p中。
也就是说字符数组自己存那些字符;字符串一定需要额外的内存来存那些字符,字符串本身只存真正的那些字符所在的内存空间的首地址。


第三点

结构体

区别struct与typedef struct

上述代码中第一个是定义了一个结构体并定义了一个变量s1,如果需要访问的话,可以用s1.name的方式进行访问。

 

 也可以分开定义结构体并定义变量;

结构体的对齐访问

结构体中元素的访问其实本质上还是用指针方式,结合这个元素在整个结构体中的偏移量和这个元素的类型来进行访问的,所以我们依据以上的代码所构建的结构体,用指针的方式进行访问,访问的代码截图如上图所示;

分析第一行代码:我们通过指针的形式来访问S1.c中的值,通过printf打印出来,可以看到,里面所存的值为t.

分析第二行代码:按我们固有的思路,int型数据刚好跟在char型数据的后面,所以通过指针访问时,应该在上一数据地址后面加1就可以了,我们继续用printf打印出来,发现值并非s1.b的值,所以说这块地址可能查找错误。

分析第三行代码: 在考虑到可能地址查找错误之后,我们将偏移量加至4,结果发现,打印的数值正确因此也引出结构体的对齐访问的概念;

为什么需要结构体对齐

(1)结构体中元素对齐访问主要原因是为了配合硬件,也就是说硬件本身有物理上的限制,如果对齐排布和访问会提高效率,否则会大大降低效率
(2)内存本身是一个物理器件(DDR内存芯片,SoC上的DDR控制器),本身有一定的局限性:如果内存每次访问时按照4字节对齐访问,那么效率是最高的;如果你不对齐访问效率要低很多。
(3)还有很多别的因素和原因,导致我们需要对齐访问。譬如Cache的一些缓存特性,还有其他硬件(譬如MMU、LCD显示器)的一些内存依赖特性,所以会要求内存对齐访问。
(4)对比对齐访问和不对齐访问:对齐访问牺牲了内存空间,换取了速度性能;而非对齐访问牺牲了访问速度性能,换取了内存空间的完全利用。
 

如何实现结构体访问对齐

首先编译器本身可以设置内存对齐的规则,有以下的规则需要记住:32位编译器,一般编译器默认对齐方式是4字节对齐。

总结下:结构体对齐的分析要点和关键:
1、结构体对齐后的大小必须
4的倍数(编译器设置为4字节对齐时,如果编译器设置为8字节对齐,则这里的4是8)
2、所有的内存排布必须按照占用内存最少的方式来。

下面举两个示例,用以理解(上面是定义结构体,下面是内存存储示意图)

 

 

第四点

offsetof宏与container_of宏

对offsetof的解读

offsetof的宏的定义如下图

对offsetof宏定义的解释:首先可以看见,其中垢面有两个参数。一个是type,他是结构体类型,一个是member,他是结构体中一个元素的元素名;((TYPE*)0)这是一个强制类型转换,把0地址强制类型转换成一个指针,这个指针指向一个TYPE类型的结构体变量。    (实际上这个结构体变量可能不存在,但是只要我不去解引用这个指针就不会出错)。,因为((TYPE*)0)是指向一个TYPE类型的结构体变量,那么((TYPE *)0)->MEMBER就是通过这个指针去访问这个变量里面的某个元素,由此可得,&((TYPE *)0)->MEMBER就是取所指向的这个元素的地址,并通过((int)&((TYPE *)0)->MEMBER)将这个元素的地址强制转换为int型!因为结构体变量的首地址为0,所以这个元素的地址就是它与首地址之间的差。

offsetof宏定义的作用:用宏来计算结构体中某个元素和结构体首地址的偏移量(其实质是通过编译器来帮我们计算)

通过程序进行验证

 对container_of宏的解读

 container_of宏的定义如下图

 对container_of宏定义的解释:container_of宏中有三个参数,他们分别代表的含义就如上图中绿字部分所示。typeof关键字的作用就是由变量名得到变量数据类型的。因此,typeof(((type*)0)->member)就是得到((type*)0)->member这个访问的元素的数据类型,然后通过typeof(((type*)0)->member)*_mptr将_mptr强制转换为这个访问的元素的数据类型,最后通过const,也就是const  typeof(((type*)0)->member)*_mptr将其变成常量,所以const  typeof(((type*)0)->member)*_mptr=(ptr)的意思就是把这个元素的地址给定义成常量的_mptr(_mptr的数据类型与ptr所指向的数据类型一致);

第二行:(type *)( (char *)__mptr - offsetof(type,member) );
取得了member的地址之后,只要把它减去member相对于结构体的偏移量,就可以得到结构体的首地址了。最后,再把这个地址转化成type*,就完成了整个逻辑。

container_of宏的作用:知道一个结构体中某个元素的指针,反推这个结构体变量的指针(首地址)。有了container_of宏,我们可以从一个元素的指针得到整个结构体变量的指针(地址),继而得到结构体中其他元素的指针。

通过程序验证:

 

 由上图可知,我们通过container_of宏得到的结构体变量的首地址与我们直接打印出来的结构体变量的首地址是一致的!

第五点

共用体和大小端

公用体是什么

共用体和和结构体的共同点:共用体union和结构体struct在类型定义、变量定义、使用方法上很相似。操作语法几乎相同。
共用体和结构体的不同:结构体类似于一个包裹,结构体中的成员彼此是独立存在的,分布在内存的不同单元中,他们只是被打包成一个整体叫做结构体而已;共用体中的各个成员其实是一体的,彼此不独立,他们使用同一个内存单元。可以理解为:有时候是这个元素,有时候是那个元素。更准确的说法是同一个内存空间有多种解释方式。
共用体的地址长度为其中元素最长的元素的长度,结构体的地址长度为所有元素的地址的和;

共用体的主要用途:
(1)共用体就用在那种对同一个内存单元进行多种不同规则解析的这种情况下。
(2)C语言中其实是可以没有共用体的,用指针和强制类型转换可以替代共用体完成同样的功能,但是共用体的方式更简单、更便捷、更好理解。

大小端的理解

问题的引出:在串口等串行通信中,一次只能发送1个字节。这时候我要发送一个int类型的数就遇到一个问题。int类型有4个字节,我是按照:byte0 byte1 byte2 byte3这样的顺序发送,还是按照byte3 byte2 byte1 byte0这样的顺序发送。规则就是发送方和接收方必须按照同样的字节顺序来通信,否则就会出现错误。这就叫通信系统中的大小端模式。这是大小端这个词和计算机挂钩的最早的问题。

现在我们讲的这个大小端模式,更多是指计算机存储系统的大小端。在计算机内存/硬盘/Nnad中。因为存储系统是32位的,但是数据仍然是按照字节为单位的。于是乎一个32位的二进制在内存中存储时有2种分布方式:高字节对应高地址(小端模式)、高字节对应低地址(大端模式)

针对于大小端,并没有优劣之分,只是如果不统一的话,可能数据传输会出错!

经典笔试题-测试机器大小端

用union来测试机器的大小端模式(用c语言代码)

第六点

枚举

枚举是用来干嘛的?

枚举在C语言中其实是一些符号常量集。直白点说:枚举定义了一些符号,这些符号的本质就是int类型的常量,每个符号和一个常量绑定。这个符号就表示一个自定义的一个识别码,编译器对枚举的认知就是符号常量所绑定的那个int类型的数字。
枚举符号常量和其对应的常量数字相对来说,数字不重要,符号才重要。符号对应的数字只要彼此不相同即可,没有别的要求。所以一般情况下我们都不明确指定这个符号所对应的数字,而让编译器自动分配。(编译器自动分配的原则是:从0开始依次增加。如果用户自己定义了一个值,则从那个值开始往后依次增加)


宏定义与枚举的区别

宏定义的目的和意义是:不用数字而用符号。从这里可以看出:宏定义和枚举有内在联系。宏定义和枚举经常用来解决类似的问题,他们俩基本相当可以互换,但是有一些细微差别。

枚举的意义:枚举是将多个有关联的符号封装在一个枚举中,而宏定义是完全散的。也就是说枚举其实是多选一。
什么情况下用枚举?当我们要定义的常量是一个有限集合时(譬如一星期有7天,譬如一个月有31天,譬如一年有12个月····),最适合用枚举。(其实宏定义也行,但是枚举更好)
不能用枚举的情况下(定义的常量与符号之间无关联,或者无限的)用宏定义。
总结:宏定义先出现,用来解决符号常量的问题;后来人们发现有时候定义的符号常量彼此之间有关联(多选一的关系),用宏定义来做虽然可以但是不贴切,于是乎发明了枚举来解决这种情况。
 

;