Bootstrap

【操作系统】第二章:进程管理(上)

本篇笔记课程来源:王道计算机考研 操作系统

一、进程的概念

1. 概念

程序和进程的区别:

  • 程序:是静态的,就是个存放在磁盘中的可执行文件,是一系列的指令集合。
  • 进程:是动态的,是程序的一次执行过程。
  • 同一个程序多次执行会对应多个进程。

在引入进程实体的概念后,可把进程定义为:进程是进程实体的运行过程,是系统进行资源分配和调度的一个独立单位。

  • 一个进程被调度,就是指操作系统决定让这个进程上CPU运行。

2. 组成

进程动态的,进程实体(进程映像)静态的;可以理解为进程实体是进程在动态执行的过程中某一时刻的状态、快照。
一个进程实体(进程映像)由 PCB、程序段、数据段 组成。

  • PCB是给操作系统用的;
  • 程序段、数据段是给进程自己用的
  • 同一个程序执行多次,它们的PCB、数据段各不相同,但程序段的内容是相同的。

PCB(Process Control Block):是一个保存进程信息的数据结构,也是进程存在的唯一标志,即进程控制块。当进程被创建时,操作系统为其创建PCB,当进程结束时,会回收其PCB:

  • 当进程被创建时,操作系统会为该进程分配一个唯一的、不重复的进程ID(Process ID)PID。
  • 操作系统记录基本的进程描述信息,可以让操作系统区分各个进程。记录包括PID、进程所属用户ID(UID)
  • 操作系统实现对资源的管理,记录分配的资源(内存、IO设备、文件资源等)
  • 操作系统实现对进程的控制和调度,记录进程的运行情况(CPU使用时间、磁盘使用情况、网络流量使用情况等)
  • 记录处理机相关信息,如PSW(程序状态字寄存器)、PC(程序计数器)等各种寄存器的值(用于实现进程切换)

操作系统需要对各个并发运行的进程进行管理,但凡管理时所需要的信息,都会被放在PCB中。


程序段:

  • 包含程序指令,即程序的代码(指令序列)

数据段:

  • 包含运行过程中产生的各种数据(如:定义的变量)

3. 特征

程序时静态的,进程是动态的,相比于程序,进程拥有以下特征

特征说明备注
动态性进程是程序的一次执行过程,是动态地产生、变化和消亡的动态性是进程最基本的特征
并发性内存中有多个进程实体,各进程可并发执行
独立性进程是能独立运行、独立获得资源、独立接受调度的基本单位
异步性各进程按各自独立的、不可预知的速度向前推进,操作系统要提供“进程同步机制”来解决异步问题异步性会导致并发程序执行结果的不确定性
结构性每个进程都会配置一个PCB。结构上看,进程由PCB、程序段、数据段组成

二、进程的状态与转换、组织

1. 进程的状态

进程的整个生命周期中,大部分时间都处于运行态、就绪态、阻塞态,因此它们是进程的三种基本状态

  • 单核CPU同一时刻只会有一个进程处于运行态,多个CPU可能有多个进程处于运行态。
  • 在PCB中,会有一个变量state来表示进程的当前状态。
状态表示说明
创建态 / 新建态New进程正在被创建,操作系统为进程分配资源、初始化PCB
就绪态Ready(CPU❌其他所需资源✅)已经具备运行条件,但由于没有空闲CPU,而暂时不能运行
运行态Running(CPU✅其他所需资源✅)占有CPU,并在CPU上运行
阻塞态 / 等待态Waiting / Blocked(CPU❌其他所需资源❌)因等待某一事件而暂时不能运行
终止态 / 结束态Terminated进程正在从系统中撤销,操作系统会回收进程拥有的资源、撤销PCB
  1. 创建态

    • 当进程正在被创建时,它的状态是“创建态”。
    • 在这个阶段操作系统会为进程分配资源、初始化PCB。
  2. 就绪态

    • 当进程创建完成后,便进入“就绪态”。
    • 处于就绪态的进程已经具备运行条件,但由于没有空闲CPU,暂时不能运行。
    • 系统中可能会有很多个进程处于就绪态。
  3. 运行态

    • 当CPU空闲时,操作系统就会选择一个就绪进程,让它上处理机运行。
    • 如果一个进程此时在CPU上运行,那么这个进程处于“运行态”。CPU会执行该进程所对应的程序(执行指令序列)
  4. 阻塞态

    • 在进程运行的过程中,可能会请求等待某个事件的发生(如等待某种系统资源的分配,或等待其他进程的响应)。
    • 在这个事件发生之前,进程无法继续往下执行,此时操作系统会让这个进程下CPU,并让它进入“阻塞态”。
  5. 终止态

    • 一个进程可以执行 exit 系统调用,请求操作系统终止该进程,此时进程会进入”终止态“。
    • 操作系统会让该进程下CPU,并回收内存空间等资源,最后还要回收该进程的PCB。当终止进程的工作完成之后,这个进程就彻底消失了。

2. 进程状态间的转换

转换情况
创建态 → 就绪态系统完成创建进程相关的工作
就绪态 → 运行态进程被调度
运行态 → 就绪态时间片到,或CPU被其他高优先级的进程抢占
运行态 → 阻塞态等待系统资源分配,或等待某事件发生(“系统调用”的方式,主动行为)
阻塞态 → 就绪态资源分配到位,等待的事件发生(不是进程自身能控制的,被动行为)
运行态 → 终止态进程运行结束,或运行过程中遇到不可修复的错误

不能由阻塞态直接转换为运行态,也不能由就绪态直接转换为阻塞态。(因为进入阻塞态是进程主动请求的,必然需要进程在运行时才能发出这种请求)

在这里插入图片描述
截图来源于 P13 2.1_2_进程的状态与转换、进程的组织 09:48

3. 进程的组织

为了对同一状态下的各个进程进行统一的管理,操作系统会将各个进程的PCB组织起来。

组织方式有:链接方式(常用)、索引方式。

  1. 链接方式

    • 按照进程状态将PCB分为多个队列,操作系统持有指向各个队列的指针。
    • 执行指针指向当前处于运行态的进程
    • 就绪队列指针指向当前处于就绪态的进程,通常会吧优先级高的进程放在队头
    • 阻塞队列指针指向当前处于阻塞态的进程。某些操作系统会根据阻塞原因不同,再分为多个阻塞队列。
  2. 索引方式

    • 根据进程状态的不同,建立几张索引表,操作系统持有指向各个索引表的指针。

三、进程控制

1. 概念

  • 进程控制的主要功能:对系统中的所有进程实施有效的管理,它具有创建新进程、撤销已有进程、实现进程状态转换等功能。

  • 简化理解:进程控制就是要实现进程状态转换。

2. 如何实现进程控制

  • 使用 ”原语“ 实现进程控制
    • 原语:是一种特殊的程序,它的执行具有原子性。即程序执行过程必须一气呵成,期间不允许被中断
    • 如果不能一气呵成,就有可能导致操作系统中的某些关键数据结构信息不统一的情况,这会影响操作系统进行别的管理工作。
  • 使用 ”关中断指令“ 和 ”开中断指令“ 这两个特权指令实现原子性。
    • CPU执行了关中断指令之后,就不再例行检查中断信号,直到执行开中断指令之后才会恢复检查。
    • 关中断、开中断之间的指令序列不可被中断,这就实现了原子性。

3. 进程控制相关的原语

  1. 进程的创建:操作系统创建一个进程时使用 创建原语
    • 状态转换:创建态 → 就绪态
    • 过程:
      1. 申请空白PCB
      2. 为新进程分配所需资源
      3. 初始化PCB
      4. 将PCB插入就绪队列
    • 引起进程创建的事件
      1. 用户登录:分时系统中,用户登录成功,系统会为其建立一个新的进程
      2. 作业调度:多道批处理系统中,有新的作业放入内存时,会为其创建一个新的进程
      3. 提供服务:用户向操作系统提出某些请求时,会新建一个进程处理该请求
      4. 应用请求:由用户进程主动请求创建一个子进程

  1. 进程的终止:终止一个进程时使用 撤销原语
    • 状态转换:就绪态 / 阻塞态 / 运行态 → 终止态 → 无
    • 过程:
      1. 从PCB集合中找到终止进程的PCB
      2. 若进程正在运行,立即剥夺CPU,将CPU分配给其他进程
      3. 终止其所有子进程:进程间的关系是树形结构
      4. 将该进程拥有的所有资源归还给父进程或操作系统
      5. 删除PCB
    • 引起进程终止的事件:
      1. 正常结束:进程自己请求终止(exit 系统调用)
      2. 异常结束:整数除以0、非法使用特权指令
      3. 外界干预:用户杀掉进程

  1. 进程的阻塞:阻塞原语 必须和唤醒原语成对使用。
    • 状态转换:运行态 → 阻塞态
    • 过程:
      1. 找到要阻塞的进程对应的PCB
      2. 保护进程运行现场,将PCB状态信息设置为“阻塞态”,暂时停止进程运行
      3. 将PCB插入相应事件的等待队列
    • 引起进程阻塞的事件
      1. 需要等待系统分配某种资源
      2. 需要等待相互合作的其他进程完成工作

  1. 进程的唤醒:唤醒原语 必须和阻塞原语成对使用。
    • 状态转换:阻塞态 → 就绪态
    • 过程:
      1. 在事件等待队列中找到PCB
      2. 将PCB从等待队列中移除,设置进程为就绪态
      3. 将PCB插入就绪队列,等待被调度
    • 引起进程唤醒的事件:
      1. 等待的事件发生

  1. 进程的切换:切换原语
    • 状态转换:运行态 → 阻塞态 / 就绪态、就绪态 → 运行态
    • 过程:
      1. 将运行环境信息存入PCB
      2. PCB移入相应队列
      3. 选择另一个程序执行,并更新其PCB
      4. 根据PCB恢复新进程所需的运行环境
    • 引起进程切换的事件:
      1. 当前进程时间片到
      2. 有更高优先级的进程到达
      3. 当前进程主动阻塞
      4. 当前进程终止

四、进程通信

1. 概念

  • 进程间通信(Inter-Process Communication,IPC):是指两个进程之间产生数据交互。
  • 进程通信需要操作系统支持 —— 进程是分配系统资源的单位(包括内存地址空间),因此各进程拥有的内存地址空间相互独立。为了保证安全,一个进程不能直接访问另一个进程的地址空间。
  • 进程通信的方式有很多,这里写三个:共享存储、消息传递、管道通信。

2. 共享存储

  • 共享存储通过操作系统在内存中开辟共享存储区,进程访问共享存储区实现进程通信。
  • 为避免出错,各个进程对共享空间的访问应该是互斥的(只能有一个进程访问共享空间);各个进程可使用操作系统内核提供的同步互斥工具(如 P、V 操作)。
  • 在 Linux 中,实现共享存储:
    1. 通过 shm_open 系统调用,申请一片共享内存区
    2. 通过 mmap 系统调用,将共享内存区映射到自己的地址空间
  • 共享存储的方式:基础数据结构的共享、基于存储区的共享
    1. 基于数据结构的共享:比如共享空间内只能放一个长度为 10 的数组。这种共享方式速度慢、限制多,是一种低级通信方式。
    2. 基于存储区的共享:操作系统在内存中划出一块共享存储区,数据的形式、存放位置都由通信进程控制,而不是操作系统。这种共享方式速度快,灵活性高,是一种高级通信方式。

3. 消息传递

  • 消息传递:进程间的数据交换以格式化的消息(Message)为单位。进程通过操作系统提供的 “发送消息 / 接收消息” 两个原语进行数据交换。

    • 格式化的消息包括:消息头和消息体,消息头包括发送进程ID、接受进程ID、消息长度等格式化的信息。
    • 发送原语 send、接收原语 receive
  • 消息传递的方式:直接通信方式、间接通信方式

    1. 直接通信方式,消息发送进程要指明接受进程的ID。发送进程使用发送原语后,操作系统内核会将消息挂载(复制)到接收进程的PCB消息队列中,接收进程使用接收原语将消息复制到它的地址空间中。
    2. 间接通信方式,也称 “信箱通信方式”,以 “信箱” 作为中间实体进行间接地通信。可以多个进程往同一个信箱 send 消息,也可以多个进程从同一个信箱中 receive 消息。

4. 管道通信

  • “管道” 是一个特殊的共享文件,又名 pipe 文件。其实是在内存中开辟一个大小固定的内存缓冲区(理解为循环队列)。
  • 管道只能采用半双工通信,某一时间段内只能实现单向的传输。如果要实现双向同时通信,则需要设置两个管道。
  • 各进程要互斥地访问管道(由操作系统实现)
  • 管道写满时,写进程阻塞,直到读进程将管道中的数据取走,即可唤醒写进程。
    管道读空时,读进程阻塞,直到写进程往管道中写入数据,即可唤醒读进程。
  • 只要管道没空,读进程就可以从管道读数据;
    只要管道美满,写进程就可以往管道写数据。
  • 管道中的数据一旦被读出,就彻底消失。因此,当多个进程读同一个管道时,可能会错乱。对此,不同操作系统有不同的解决方案:
    1. 一个管道允许多个写进程,一个读进程(一般选这个)
    2. 允许有多个写进程,多个读进程,但系统会让各个读进程轮流从管道中读数据

五、线程

1. 概念

  • 有的进程可能需要“同时”做很多事,而传统的进程只能串行地执行一系列程序。为此,引入了“线程”,来增加并发度。
  • 线程是一个基本的CPU执行单元,也是程序执行流的最小单位

2. 引入线程的变化

引入线程机制后,带来的变化

  1. 传统的进程是程序执行流的最小单位,引入线程后,线程成为了程序执行流的最小单位。
  2. 资源分配、调度:
    • 传统进程机制中,进程是资源分配、调度的基本单位
    • 引入线程后,进程是资源分配的基本单位(除CPU之外的系统资源的分配单元),线程是调度的基本单位
  3. 并发现:
    • 传统进程机制中,只能进程间并发
    • 引入线程后,各线程间也能并发,提高了并发度
  4. 系统开销:
    • 传统的进程间并发,需要切换进程的运行环境,系统开销很大
    • 引入线程后,线程间并发,如果是同一进程内的线程切换,则不需要切换进程环境,系统开销减小

3. 线程属性

  1. 线程是处理机调度的单位,但线程几乎不拥有系统资源,系统资源几乎分配给进程
  2. 多核CPU计算机中,各个线程可占用不同的CPU
  3. 每个线程都有一个线程ID、线程控制块(TCB)
  4. 线程也有就绪、阻塞、运行三种基本状态
  5. 同一进程的不同线程间共享进程的资源(IO设备、内存地址空间),由于共享内存地址空间,同一进程中的线程间通信甚至无需系统干预
  6. 同一进程中的线程切换,不会引起进程切换,因此系统开销小;不同进程中的线程切换,会引起线程切换,系统开销大。

4. 线程的实现方式

线程实现方式有两种,分别是用户级线程和内核级线程。用户级线程中的”线程“由线程库实现(操作系统依然只支持进程)。内核级线程由操作系统支持,此时线程才成为处理机分配的单位。

  1. 用户级线程(User-Level Thread,ULT)
    • 用户级线程由应用程序通过线程库实现,所有的线程管理工作都由应用程序负责(包括线程切换)
    • 用户级线程中,线程切换可以在用户态下即可完成,无需操作系统干预
    • 在用户看来,是由多个线程。但是在操作系统内核看来,并意识不到线程的存在。用户级线程就是从用户视角看能看到的线程
    • 优点: 用户级线程的切换在用户空间即可完成,不需要切换到核心态,线程管理的系统开销小,效率高
    • 缺点: 当一个用户级线程阻塞后,整个线程都会被阻塞,并发度不高,多个线程不可在多个处理机上并行运行,
  2. 内核级线程(Kernel-Level Thread,KLT,又称“内核支持的线程”),大都数现代操作系统都实现了内核级线程,如 Windows,Linux。
    • 内核级线程的管理工作操作系统内核完成。
    • 线程调度、切换等工作都由内核负责,因此内核级线程的切换必然需要在核心态下才能完成。
    • 操作系统会为每个内核级线程建立相应的 TCB(Thread Control Block,线程控制块),通过TCB对线程进行管理。“内核级线程” 就是“从操作系统内核视角看能看到的线程
    • 优点: 当一个线程被阻塞后,别的线程还可以继续执行,并发能力强,多线程可在多核处理机上并行执行。
    • 缺点: 一个用户进程会占用多个内核级线程,线程切换由操作系统内核完成,需要切换到核心态,因此线程管理的成本高,开销大。

5. 多线程模型

在支持内核级线程的系统中,根据用户级线程和内核级线程的映射关系(引入线程库),可以划分为多种多线程模型。

  1. 一对一模型:

    • 一个用户级线程映射到一个内核级线程。每个用户进程有与用户级线程同数量的内核级线程。
    • 优点: 当一个线程被阻塞后,别的线程还可以继续执行,并发能力强。多线程可在多核处理机上并行执行。
    • 缺点: 一个用户进程会占用多个内核级线程,线程切换由操作系统内核完成,需要切换到核心态,因此线程管理的成本高,开销大。
      在这里插入图片描述
  2. 多对一模型:

    • 多个用户级线程映射到一个内核级线程。且一个进程只被分配一个内核级线程(更像用户级线程)。
    • 优点: 用户级线程的切换在用户空间即可完成,不需要切换到核心态,线程管理的系统开销小,效率高。
    • 缺点: 当一个用户级线程被阻塞后,整个进程都会被阻塞,并发度不高。多个线程不可在多核处理机上并行运行。
      在这里插入图片描述
  3. 多对多模型:

    • n个用户及线程映射到 m 个内核级线程 (n >= m)。每个用户进程对应 m 个内核级线程。
    • 优点: 集二者之所长,克服了一对一模型中一个用户进程占用太多内核级线程,开销太大的缺点;也克服了多对一模型并发度不高的缺点(一个阻塞全体阻塞)
    • 可以理解为:用户级线程是 ”代码逻辑“ 的载体,内核级线程是 ”运行机会“ 的载体。一段 ”代码逻辑“ 只有获得了 ”运行机会“ 才能被执行。
      在这里插入图片描述

6. 线程的状态与转换

  • 线程的状态与转换 与 进程的状态与转换 类似。
  • 线程的状态只需关注 就绪态、运行态、阻塞态。
    在这里插入图片描述

7. 线程的组织与控制

  • 给各个线程建立的数据结构,就是线程控制块(TCB)。每个 TCB 包括
名词解释
线程标识符TID,与PID类似
程序计数器PC线程目前执行到哪里
其他寄存器线程运行的中间结果
堆栈指针堆栈保存函数调用信息、局部变量等
线程运行状态运行 / 阻塞 / 就绪
优先级线程调度、资源分配的参考

其中 程序计数器、其他寄存器、堆栈指针 是线程切换时要保存 / 恢复的数据。

  • 按照需求,多个线程的 TCB 可组织成一张线程表(Thread Table)
  • 线程的控制,就是让线程在各个状态间切换。与进程类似。
;