Bootstrap

JVM常见知识点

在《深入理解Java虚拟机》一书中,介绍了JVM的相关特性。

1、JVM的内存区域划分

在真实的操作系统中,对于地址空间进行了分区域的设计,由于JVM是仿照真实的机器进行设计的,那么也进行了分区域的设计。核心区域有四个,分别为程序计数器、元数据区、栈、堆。此处的栈和堆与数据结构中的栈和堆不一样。

元数据区和堆,是整个 java 进程共用一份的,程序计数器和栈,在一个进程中可能有多份,即每个进程都有一份。

1)程序计数器

很小的一块地址,用来记录指令运行到哪个地址了。

2)元数据区

保存当前类被加载好的数据。

.java 文件需要先被编译为 .class 文件,再将 .class 文件加载到内存中。

元数据区保存类的名字、类的可见性、类的继承关系、实现的接口等。

元数据区通常保存静态成员变量。

3)栈

保存方法的调用关系,此处使用了数据结构中的栈来进行保存。将先执行到的方法先入栈,后执行方法后入栈。

比如,在 main 方法中有 test 方法,当开始运行时,就会先将 main 入栈,当代码执行到 test 方法后,就会将 test 方法入栈,当test 方法运行结束后,就会返回到 main 中继续往下执行。图示如下:

栈中的每个方格就是一个栈帧,栈帧中保存了该方法的参数、局部变量、返回值、返回的地址(即该方法结束后应该返回到哪个方法继续执行)。

栈空间通常只有几MB、几十MB。

当程序出现异常(如递归代码有问题)时,有可能会出现栈溢出(StackOverFlow)的情况。

栈通常保存局部变量。

4)堆

堆是 JVM 中最大的内存空间。用来保存 new 出来的对象的。

2、类加载机制

1)类加载的步骤

类加载一共有三大阶段,第二阶段又分为三个步骤。

① 加载,找到 .class 文件

根据类的全限定名(包名 + 类名,如 java.lang.String)找到后打开文件,将文件内容读取到内u村中;

②验证

校验 .class 文件中的内容是否合法,并将文件中的内容转化为结构化的数据;

③准备

给类对象申请内存空间,即全 0 的空间;

④解析

针对字符串常量进行初始化。将文件中的字符串常量放到元数据区中。

⑤初始化

针对类对象进行最终的初始化,包括针对类对象各种属性的填充和类的静态成员。

若该类的父类还没有加载,此环节也会触发父类的加载。

上面的五步中,2、3、4步为第二阶段。

2)双亲委派模型

在类加载的第一步中,需要根据类的全限定名找到 .class 文件,这就涉及到双亲委派模型。

在进行类加载时,需要使用到类加载器。JVM 默认提供三种类加载器,分别为 BootstrapClassLoader(Java 标准库目录)、ExtensionClassLoader(Java 拓展库目录)、ApplicationClassLoader(Java 第三方库 / 当前项目)。BootstrapClassLoader 是 ExtensionClassLoader 的父类,ExtensionClassLoader 是 ApplicationClassLoader 的父类。此处的父类不是父子关系,而是通过 prant 引用进行指向。

在进行类加载时,将 ApplicationClassLoader 作为入口开始,把“类加载”的任务交给 ExtensionClassLoader 去完成,但 ExtensionClassLoader 也不会马上进行查找,而是将“类加载”的任务交给 BootstrapClassLoader 去完成。然后 BootstrapClassLoader 就会在标准库范围进行查找该 .class 文件是否存在,若存在,就加载,若不存在,就把任务返回给 ExtensionClassLoader ,在拓展库中进行查找,若找到就加载,若没有找到就将任务返回给 ApplicationClassLoader,在第三方库 / 当前项目进行查找,若找到就加载,若没找到,就会抛出 ClassNotFoundException 异常。流程图如下:

3、垃圾回收器 (GC)

由于手动进行内存释放太麻烦,并且如果忘记释放就会出现内存泄漏,于是,Java使用 GC 来进行垃圾回收。这里指的垃圾通常为对象,若这个对象在之后的代码中不会用到,就会被视为“垃圾”,进而被释放内存。

垃圾回收器回收的是堆上的内存。

使用 GC 释放垃圾分为以下两步:找到垃圾、释放垃圾。

1)找到垃圾

找到垃圾即找到不使用的类对象。有下面两个方法:

①引用计数(Python等语言使用)

在每次创建对象时,都使用一块小的内存空间来保存一个整数,这个整数就是当前对象有都少个引用指向它。每次进行引用赋值时,都会触发这个整数的修改。若整数变为0,就说明没有引用指向这个对象,即这个对象变成了垃圾。

但是这个方法也有缺陷,即:

内存消耗更多,当对象本身较小时,消耗的空间比例就更大;

可能会出现“循环引用”的问题。(需要搭配其他的方案来解决该问题)。

可达性分析(Java使用)

由于引用计数需要消耗空间,于是可达性分析就用时间来换空间。

以代码中的一些特定对象作为起点,对其他对象进行遍历,将每次遍历到的对象设为可达,遍历完成后,不可达的对象就是已经没有引用指向的对象,即垃圾,需要被回收掉。

这里的遍历很像数或图的遍历。现有下面的二叉树:

这里的每一个结点都代表一个对象。当将 c.right = null 时,在从 a 开始遍历时,f 结点就遍历不到,这时 f 就是不可达的,就会将 f 回收掉;当将 a.right = null 时 ,当从 a 开始遍历时,c 结点就是不可达的,也就导致 f 结点不可达,就会将 c 和 f 回收掉。

缺点:每次需要将所有对象遍历一遍,需要配消耗较大的时间和资源。

2)释放垃圾

①标记-清除

把垃圾对象的内存直接释放,但是这样做会产生内存碎片问题。

图中b、d、f、h是垃圾,若将其直接释放,就会导致释放后的内存空间是零散的,但由于申请内存时需要连续的内存,那么这些被释放的内存空间就会无法使用(需要的申请内存大于碎片的内存),导致内存申请失败。

②复制算法

在使用一部分内存时,每次只使用这一部分的一半内存,将创建的对象放在这一半内存上,若有的对象需要被回收,就会将不是垃圾的对象复制到另一半内存上,再将原来那一部分的对象直接回收。

这种做法就避免了产生碎片内存的问题。但也有缺点:

空间利用率低;

一旦不是垃圾的对象较多或需要复制的对象较大,就会提高复制成本,降低程序运行的效率。

③标记-整理

如上图,现b、d、f、h都是垃圾对象,于是就会将其他不是垃圾的对象向前移,移动后的结果如下图:

 之后就会将e、f、g、h直接释放。

这样做即避免出现内存碎片问题,又保证了内存的利用率。但是依然会涉及到对象的复制,若对象较多或较大,就会提高复制成本。

④将上面的三种方法结合起来

使用“代”来表示对象的年龄,即每一次遍历后若不是垃圾就加1,初始为0。

GC将内存区域划分为若干个区域,有新生代区、老年代区,新生代区中又包含伊甸区、幸存区。

伊甸区有幸存区的空间比例通常为8:1:1。

针对不同年龄的对象使用的测率不同。

若为新生代对象,就放到伊甸区中,由于绝大部分新生代对象都会在第一轮GC中变为垃圾对象,于是幸存区就比伊甸区小。 在进行遍历时,若新生代对象不是垃圾,就会放到幸存区,,若是垃圾就会直接释放。由于需要复制的对象较少,就使得复制的开销相对较小。

幸存区中的对象也需要进行遍历,若有的对象时垃圾,就会将不是垃圾的对象复制到另一个幸存区中,再将幸存区中的对象全部释放。

若某个对象经过多轮的遍历有都还是有用的,这时就会将该对象放到老年代中。由于老年代对象的生命周期较长,就使得整理的开销也较小。

于是每个对象都会经历以下几个时期:

;