基本概念
课本概念:程序的一个执行实例,正在执行的程序等
内核观点:担当分配系统资源(CPU时间,内存)的实体
操作系统一般存在在根目录下的boot目录下,而这个boot目录下存放的是一些镜像和压缩包 ,这就是我们操作系统所在的位置 查看指令:sudo ls /boot/
而这些文件的本质是存放在硬盘当中的
操作系统是通过从硬盘中被加载到内存中,从而进行资源管理,当然文件也是类似的道理,当一个存放在硬盘上的文件,只要被加载到内存中了之后并成功运行起来就是一个进程
进程的简单理解就是一个文件被加载到了内存并成功的执行起来
ps aux | head -1 && ps aux | grep mybin 查看mybin文件执行的进程
解释:
USER: 行程拥有者
PID: 进程的ID号,用来识别进程
%CPU: 占用的 CPU 使用率
%MEM: 占用的记忆体使用率
VSZ: 占用的虚拟记忆体大小
RSS: 占用的记忆体大小
TTY: 终端的次要装置号码
STAT: 该进程的状态
START: 进程开始时间
TIME: 执行的时间
COMMAND:所执行的指令
系统允许多个进程同时运行起来,OS需要对进程进行管理,如何管理进程?
操作系统管理进程的方式是先描述后组织
描述进程-PCB
1、进程信息被放在一个叫做进程控制块的数据结构中,可以理解为进程属性的集合。
2、课本上称之为PCB(process control block),Linux操作系统下的PCB是: task_struct
task_struct-PCB的一种
- 在Linux中描述进程的结构体叫做task_struct。
- task_struct是Linux内核的一种数据结构,它会被装载到RAM(内存)里并且包含着进程的信息
task_ struct内容分类
-
标示符: 描述本进程的唯一标示符,用来区别其他进程。
-
状态: 任务状态,退出代码,退出信号等。 优先级: 相对于其他进程的优先级。
-
程序计数器: 程序中即将被执行的下一条指令的地址。
-
内存指针: 包括程序代码和进程相关数据的指针,还有和其他进程共享的内存块的指针
-
上下文数据: 进程执行时处理器的寄存器中的数据[休学例子,要加图CPU,寄存器]。
-
I/O状态信息: 包括显示的I/O请求,分配给进程的I/O设备和被进程使用的文件列表。
-
记账信息: 包括处理器时间总和,使用的时钟数总和,时间限制,记账号等。
-
其他信息
关于task_struct结构定义的详细介绍请转到此处
Linux中进程控制块PCB-------task_struct结构体结构.
操作系统通过进程控制块 (PCB)对进程进行管理。 进程控制块 (PCB)(系统为了管理进程设置的一个专门的数据结构,用它来记录进程的外部特征,描述进程的运动变化过程。 系统利用PCB来控制和管理进程,所以PCB是系统感知进程存在的唯一标志。如果把这个数据结构就当拿做双向链表来讲,假设PCB就是一个双向链表,而他管理的结点就是一个个的进程,进程的退出就是链表的删除该结点,进程的载入就是插入一个结点
总结:
task_struct其实是一批描述进程的数据结构,就是结构体对象,而进程其实是可执行程序与管理进程需要的数据结构的集合
组织进程
可以在内核源代码里找到它。所有运行在系统里的进程都以task_struct链表的形式存在内核里。
查看进程
方法一:
进程的信息可以通过 /proc 系统文件夹查看,如:要获取PID为1的进程信息,你需要查看 /proc/1 这个文件夹
方法二:
ps aux | grep mybin
通过系统调用获取进程标示符
进程id(PID)
父进程id(PPID)
#include <stdio.h>
#include <sys/types.h>
#include <unistd.h>
int main()
{
while(1){
printf("hello linux, %d %d\n", getpid(), getppid());
sleep(1);
}
return 0;
}
通过系统调用可以查看当前的进程id
当程序执行的时候我们可以看到getppid()函数获取的是965这个进程id,
使用 ps aux | grep 965 查看这个进程时发现他是一个bash进程
我们都知道文件从硬盘中加载到了内存中后就会形成一个进程,这里的进程代表是mybin,那么在使用系统调用接口getppid获取的965 却是 bash进程的id,在这里mybin和bash进程他们有什么联系吗?
bash是一款命令行解释器,也属于一个进程,并不能挂,如果bash一旦故障那么用户的一切linux操作将无法进行,那么怎么保证bash在运行的过程中不发生故障呢?bash可以通过创建子进程的方法将bash所有解释的任务交给子进程,而进程是具有独立性的,所以子进程的失败并不会影响bash进程,如果子进程完成了bash交代的任务也达到了bash的目的
总结:
bash运行原理:bash叫做命令行解释器,通常是创建子进程将解释的任务交给子进程,让子进程去完成对应的任务
通过系统调用创建进程-fork初识
1、运行 man fork 认识fork
2、fork有两个返回值
3、父子进程代码共享,数据各自开辟空间,私有一份(采用写时拷贝)
fork文档
测试frok
运行结果:
观察到的现象是fork()执行前只输出了一行,而fork执行后却连续输出了两行,从语言本身的角度来考虑是不可能会出现这现象的,因为只有一个执行流,但是目前看来好像有两个执行流,但是为什么呢?
其实是一开始fork没有执行的时候只有一个进程也就是一个执行流,当fork执行完了后,frok本身也是会创建子进程的,这点从上图的现象就可以得知,
这两个进程的关系是父进程是bash创建出来的当前进程,而子进程是父进程创建出来的子进程
我们先来看看fork的返回值
pid_t fork(void);
//fork会给父进程返回子进程的PID,给子进程返回0, 并且fork有两个返回值!
验证fork返回值
根据现象探索fork本质原理
#include <stdio.h>
#include <unistd.h>
int main()
{
pid_t ret = fork();
if(ret > 0)
{
while(1) {
printf("I am parentid:%d\n", getpid()); //获取父进程
sleep(1);
}
}
else if(!ret)
{
while(1){
printf("I am childID:%d %d\n", getpid(), getppid()); //获取子进程
sleep(2);
}
}
else
{
printf("fork error\n"); //创建失败
}
sleep(1);
}
/* 执行程序后的结果 */
/*
确实当fork创建了一个子进程后我们的程序就拥有了两个执行流,
即使一个执行流在那里死循环,也并不妨碍另一个执行流
*/
[mzt@VM-16-4-centos test]$ ./proc
I am parentid:6205
I am childID:6206 6205
I am parentid:6205
I am parentid:6205
I am childID:6206 6205
I am parentid:6205
I am parentid:6205
I am childID:6206 6205
fork总结:
1、如何理解进程创建
创建进程,是系统多了一个进程,而多一个进程,系统就要多一组管理进程的数据结构 和该进程本身对应的代码和数据就需要占用的系统资源
2、fork为什么会有两个返回值,如何深刻的理解?
当子进程被创建完成后,当前程序就会存在两个执行流分别是父进程和子进程的执行流,而在返回的时候,两个执行流都会执行,所以会带回来两个返回值(进程id )
3、fork父子执行顺序和代码和数据复制的问题初识
进程的数据是包含代码和数据的,父进程会和子进程共享一份代码,但是两个进程的数据是各自都存储一份的(写时拷贝),注意函数返回值也是数据
4、为何给父进程返回子进程pid,给子进程返回0?
进程状态
Linux内核源代码
/*
* The task state array is a strange "bitmap" of
* reasons to sleep. Thus "running" is zero, and
* you can test for combinations of others with
* simple bit tests.
*/
static const char * const task_state_array[] = {
"R (running)", /* 0 */
"S (sleeping)", /* 1 */
"D (disk sleep)", /* 2 */
"T (stopped)", /* 4 */
"t (tracing stop)", /* 8 */
"X (dead)", /* 16 */
"Z (zombie)", /* 32 */
};
- R运行状态(running):并不意味着进程一定在运行中,它表明进程要么是在运行中要么在运行队列 里
面试题:是R状态的进程一定是在CPU上跑吗?
不一定,一个进程即使是处于R状态也并不一定就是在cpu上运行的,而一个cpu要运行总是会有一个运行队列,队列里存放的是pcb,而进程的代码和数据又都是通过pcb找到的 ,最后通过将代码和数据装载到cpu执行,所有R状态代表的并不是进程真正的在运行,而是在运行队列可以随时被调度
- S睡眠状态(sleeping): 意味着进程在等待事件完成(这里的睡眠有时候也叫做可中断睡眠(interruptible sleep))。
- D磁盘休眠状态(Disk sleep)有时候也叫不可中断睡眠状态,该进程不会被系统自动杀掉(uninterruptible sleep),在这个状态的进程通常会等待IO的结束。
S和D状态的区分,S只是浅度睡眠而D是深度睡眠,当系统资源吃紧的时候操作系统会选择性的杀掉一些正在运行的进程,D状态的进程不会被系统自动杀掉,因为这个状态的进程通常都需要等待IO的结束,如果这个时候操作系统选择杀掉该进程,就会出现IO错误,而S状态的进程并不需要等待IO结束
-
T停止状态(stopped): 可以通过发送 SIGSTOP 信号给进程来停止(T)进程。这个被暂停的进程可以通过发送 SIGCONT 信号让进程继续运行。
-
X死亡状态(dead):这个状态只是一个返回状态,你不会在任务列表里看到这个状态
- Z(zombie)-僵尸进程
僵死状态(Zombies)是一个比较特殊的状态。当进程退出并且父进程(使用wait()系统调用,后面讲)没有读取到子进程退出的返回代码时就会产生僵死(尸)进程
僵死进程会以终止状态保持在进程表中,并且会一直在等待父进程读取退出状态代码。所以,只要子进程退出,父进程还在运行,但父进程没有读取子进程状态,子进程进入Z状态
僵尸进程的问题思考
为什么要有僵尸状态?
保持进程基本退出信息,方便父进程读取获得退出原因
有没有声明特征?
一般,僵尸的时候task_struct是会被保留的,进程的退出信息,是放在进程控制块中的
孤儿进程
父进程如果提前退出,那么子进程后退出,进入Z之后,那该如何处理呢?
父进程先退出,子进程就称之为“孤儿进程”
孤儿进程被1号init进程领养,当然要有init进程回收喽。
进程优先级
-
cpu资源分配的先后顺序,就是指进程的优先权(priority)。
-
优先权高的进程有优先执行权利。配置进程优先权对多任务环境的linux很有用,可以改善系统性能。
-
还可以把进程运行到指定的CPU上,这样一来,把不重要的进程安排到某个CPU,可以大大改善系统整体性能
查看系统进程
在linux或者unix系统中,用ps –l命令则会类似输出以下几个内容
于是我们很容易注意到其中的几个重要信息,有下:
- UID : 代表执行者的身份
- PID : 代表这个进程的代号
- PPID :代表这个进程是由哪个进程发展衍生而来的,亦即父进程的代号
- PRI :代表这个进程可被执行的优先级,其值越小越早被执行
- NI :代表这个进程的nice值
进程优先级分为两部分(pri) 和 (ni) 、 ni表示优先级的修正数据。
PRI and NI
-
PRI也还是比较好理解的,即进程的优先级,或者通俗点说就是程序被CPU执行的先后顺序,此值越小进程的优先级别越高
-
那NI呢?就是我们所要说的nice值了,其表示进程可被执行的优先级的修正数值
-
PRI值越小越快被执行,那么加入nice值后,将会使得PRI变为:PRI(new)=PRI(old)+nice
-
这样,当nice值为负值的时候,那么该程序将会优先级值将变小,即其优先级会变高,则其越快被执行
-
所以,调整进程优先级,在Linux下,就是调整进程nice值
-
nice其取值范围是-20至19,一共40个级别
更改进程的优先级方法是对ni(nice) 进行调整
进入top输入r,输入想要修改的进程的pid代号
当弹出这个选项的时候就可以在输入框中修改nice的值
当nice被调整完后这个进程的优先级就是调整之前的PRI加上NI修改后的值
进程其他概念
- 竞争性: 系统进程数目众多,而CPU资源只有少量,甚至1个,所以进程之间是具有竞争属性的。为了高效完成任务,更合理竞争相关资源,便具有了优先级
- 独立性: 多进程运行,需要独享各种资源,多进程运行期间互不干扰
- 并行: 多个进程在多个CPU下分别,同时进行运行,这称之为并行
- 并发: 多个进程在一个CPU下采用进程切换的方式,在一段时间之内,让多个进程都得以推进,称之为并发
环境变量
基本概念
- 环境变量(environment variables)一般是指在操作系统中用来指定操作系统运行环境的一些参数
- 如:我们在编写C/C++代码的时候,在链接的时候,从来不知道我们的所链接的动态静态库在哪里,但是照样可以链接成功,生成可执行程序,原因就是有相关环境变量帮助编译器进行查找。
- 环境变量通常具有某些特殊用途,还有在系统当中通常具有全局特性
查看环境变量方法
echo $NAME //NAME:你的环境变量名称
常见环境变量
-
PATH : 指定命令的搜索路径,PATH是系统的全局环境变量
比如ls一定有他的默认查找路径!PATH环境变量中,环境变量也是变量,环境变量是由:(变量名PATH + 变量内容(路径))组成的 -
HOME : 指定用户的主工作目录(即用户登陆到Linux系统中时,默认的目录)
-
SHELL : 当前Shell,它的值通常是/bin/bash
测试PATH
可以发现我们在执行程序的时候,不能直接使用文件名来执行该程序,必须以 . / 的方式在当前目录下找到该程序并执行
一种比较简单粗暴的方式是直接将该文件拷贝到系统目录下的/usr/bin目录,这样就可以像执行ls一样输入文件名,程序就可以运行
但是上面的这种方法并不好,因为会污染linux系统的命令池,比较推荐的一种合理做法是将程序的所处路径添加进环境变量PATH中,这样就可以直接使用文件名执行程序了
export PATH=$PATH:/mzt/course/ //将/mzt/course/导入进环境变量,
操作演示:
PATH只是环境变量中的一个,系统有多个环境变量,用来解决不同的场景,这里可以使用env查看系统中的所有环境变量
测试HOME
- 用root和普通用户,分别执行 echo $HOME ,对比差异
我们可以发现如果以普通用户登录的话,默认所处的路径是在/home/mzt中,如果是以root用户登录的话,默认所处的路径是在/root下,所以一个用户默认所处的路径是由环境变量HOME决定的,环境变量home是决定用户所处的主工作目录的
和环境变量相关的命令
- echo: 显示某个环境变量值
- export: 设置一个新的环境变量(全局)
- env: 显示所有环境变量
- unset: 清除环境变量
- set: 显示本地定义的shell变量和环境变量
环境变量的组织方式
每个程序都会收到一张环境表,环境表是一个字符指针数组,每个指针指向一个以’\0’结尾的环境字符串
假设我们写了一个这样的程序
#include <stdlib.h>
int main(int avgc , char *argv[],char* env[] )
//这三个参数表示的意思是:命令行参数个数、命令行参数、环境变量
{
printf("argv[%d]: %s\n", i, argv[i]);
return 0;
}
看看运行结果,我们可以发现(. / )后面除了跟文件名还跟了一些选项,当我们执行这个可执行程序的时候会将所有的命令行参数给输出出来,
通过代码如何获取环境变量
#include <stdio.h>
int main(int argc , char *argv[],char* env[] )
//命令行参数个数、命令行参数、环境变量
{
int i = 0;
for(; env[i]; i++) //遍历env指针数组打印环境变量的值
{
printf("env[%d]:%s\n", i, env[i]);
}
return 0;
}
通过系统调用获取或设置环境变量
环境变量通常是具有全局属性的, 环境变量通常具有全局属性,可以被子进程继承下去
总结:
- 1、环境变量是什么: 环境变量是系统中的某些具有一定全局性质的变量,通常是为了满足某些系统需求
- 2、为什么需要环境变量:系统的全局变量,都是为了方便用户,开发者,系统进行某种最简单化的查找,定位,确认等等问题
- 3、如何使用编程语言(c/c++)操作环境变量?可以通过系统调用或者遍历env指针数组