虚拟机类加载机制

本节主要内容：

介绍了类加载过程中：“加载”、“验证”、“准备”、“解析”、“初始化”这5个阶段中虚拟机进行了了那些动作，
介绍了类加载器的工作原理及对虚拟机的意义。

概述

两个约定：

后面的类泛指类和接口，需要区别对待的地方会特别指出
class文件并非指硬盘上真实的文件，而泛指一串二进制字节码

类加载时机

类加载——类的生命周期？

类的生命周期

类加载的过程是按部就班？

类加载的过程是交叉的，之力只是指开始的时机是按部就班的。
比如在加载阶段未结束就会进行第二阶段的验证

什么时候开始加载阶段？

类的加载阶段的启动条件“有且仅有”下面5个：

遇到new（对应新建对象）、getstatic（对应访问类变量、static final除外）、putstatic（对应设置类变量、static final除外）、invokestatic（调用类方法即静态方法）这4条指令时，如果类没有加载，则需要先触发其加载。
对类进行反射调用时，如果类没有加载，则必须触发加载
当初始化一个类时，如果其父类没有加载，则必须先加载他的父类
虚拟机执行的main方法入口，这个类必须加载
JDK1.7.动态语言支持时，如果java.lang.invoke.MethodHandler指向的是REF_getstatic,REF_putstatic、REF_invokestatic的方法句柄时，必须先加载这个类

如何理解有且仅有？

比如下面的情况是不会触发加载的：

通过子类访问到父类中的静态字段，只会触发父类的初始化，不会触发子类的加载
new一个数组对象(newarray指令)，只会触发数组对象的加载，并不会触发数组元素类的加载
getstatic（对应访问类变量、static final除外），意思是调用常量并不会触发被调用类的加载，因为常量会存储在调用类的常量池中

接口和类加载阶段的区别？

第三点有区别，当初始化一个接口时，并不要求父接口也初始化，当使用父接口时初始化

类加载的过程

加载

加载的目标？

通过一个类的全限定名来获取定义此类的二进制字节流。
将这个字节流所代表的静态存储结构转化为方法区的运行时数据结构
在内存中生成一个代表这个类的java.lang.Class对象，作为方法区这个类的各种数据的访问入口

对于HotSpot虚拟机而言，Class对象比较特殊，它虽是对象，但存放在方法区里

加载阶段的可控性体现在？

对于字节流的获取，jvm并没有明确的限制，比如：

从ZIP包中读取
从网络中获取
运行时计算生成
从其他文件生成，如JSP技术

数组类加载阶段的有什么不同？

数组类本身不由加载器创建，而是用JVM虚拟机创建。而对于数据元素，按一下规则：

如果数组元素是引用类型，则用该引用类型的类加载器去加载
如果数组元素是基础类型，则用引导类加载器去加载

验证

验证开始时机？

在加载阶段的第二步之前

验证的目的？

确保输入的Class文件的字节流能正确地解析并存储于方法区之内，格式上符合描述一个Java类型信息的要求，并且不会危害虚拟机自身的安全。

为什么需要验证？

java语言本身是安全的（在编译时会进行安全验证），但是Class文件并不要求用JAVA编译而来，对于从其他渠道获取的二进制字节流，有必要验证器安全性

验证的过程：

从整体上看，验证阶段大致上会完成下面四个阶段的检验动作：文件格式验证、元数据验证、字节码验证、符号引用验证。

文件格式验证：验证字节流是否符合Class文件格式的规范，并且能被当前版本的虚拟机处理。
- 是否以魔数0xCAFEBABE开头。
- 主次版本号是否在当前虚拟机的处理范围之内
- 常量池的常量中是否有不被支持的常量类型（tag标志）。
- 指向常量的各种索引值中是否有指向不存在的常量或不符合类型的常量。
- Class文件中各个部分及文件本身是否有被删除的或附加的其他信息。
- ……
只有通过了这个阶段的验证后，字节流才会进入方法区中进行存储，所以后面的3个验证阶段全部是基于方法区的存储结构进行的，不会再直接操作字节流。
元数据验证：对字节码描述的信息（即类的元数据信息）进行语义分析，以保证其描述的信息符合Java语言规范的要求。
- 该类是否有父类（除了java.lang.Object之外，所有的类都应有父类）
- 该类的父类是否继承了不允许被继承的类（final修饰的类）
- 若此类不是抽象类，是否实现了其父类或接口之中要求实现的所有方法
- ……
字节码验证：进行数据流和控制流分析（主要在Code属性），确定程序语义是合法的、符合逻辑的。
- 保证任意时刻操作数栈的数据类型与指令代码序列都能配合工作。
- 保证跳转指令不会跳转到方法体以外的字节码指令上。
- 保证方法体中类型转换是有效的，例如子类对象可以赋值给父类数据类型，但父类对象赋值给子类数据类型是危险和不合法的。
- ……
符号引用验证：对类自身以外（常量池中的各种符号引用）的信息进行匹配性校验，确保第三阶段——解析阶段的动作能正常执行。
- 符号引用中通过字符串描述的全限定名是否能找到对应的类。
- 指定的类中是否存在符合描述符与简单名称描述的方法与字段。
- 符号引用中的类、字段、方法的访问性（private、protected、public、default）是否可被当前类访问。

更多说明：

验证阶段是一个非常重要但不是一定必要（因为对运行期没有影响）的阶段。如果所运行的全部代码都已经被反复验证过，那么在实施阶段就可以考虑使用-Xverify:none参数来关闭大部分的类验证措施，以缩短虚拟机类加载的时间。

准备

准备的目的？

为类变量分配内存(方法区)
设置类变量初始值

两个容易混淆的概念？

在准备阶段进行内存分配的仅包括类变量（被static修饰的变量），而不包括实例变量，实例变量将会在对象实例化时随着对象一起分配在Java堆中。
这里的初始值仅仅是数据类型对应的零值（被final修饰的常量除外）

解析

解析的目的？

解析阶段是虚拟机将常量池内的符号引用替换为直接引用的过程。

符号引用和直接引用的关系？

符号引用（Symbol References）：符号引用以一组符号来描述所引用的目标，符号可以是任何形式的字面量，只要使用时能无歧义地定位到目标即可。
直接引用（Direct References）：直接引用可以是直接内存中目标的指针、相对偏移量或是一个能间接定位到目标的句柄。

解析的时间？

虚拟机规范并未规定解析动作发生的具体时间，仅要求在执行anewarray、checkcast、getfield、getstatic、instanceof、invokeinterface、invokespecial、invokestatic、invokevirtual、multianewarray、new、putfield和putstatic这13个用于操作符号引用的字节码指令之前，先对它们所使用的符号引用进行解析。所以虚拟机实现可以根据需要来判断到底是在类被加载器加载时就对常量池中的符号进行解析，还是等到一个符号引用将要被使用前才去解析它。

加载的启动指令有且只有4个，而解析有13个，实际上是不矛盾的，我的认为是，一开始只有main方法所在类会被加载，之后都是在符号引用被解析的时候被加载的，而已经被加载过的再次被解析时，可以直接从缓存中拿到直接引用。

对一个符号进行多次解析是什么结果？

对同一个符号引用进行多次解析请求是很常见的，除 invokedynamic 指令外（ invokedynamic指令是用于动态语言支持的，它所对应的引用称为“动态调用点限定符”，必须等到程序实际运行到这条指令的时候，解析动作才能进行）虚拟机实现可能会对第一次解析的结果进行缓存（将直接引用保存在运行时常量池中），无论是否真正执行了多次解析动作，虚拟机实现必须保证在同一个实体中，如果一个符号引用之前已经被成功解析过，后续的引用解析请求就应当一直成功，反之亦然。

类或接口解析步骤？
字段解析步骤？
类方法解析步骤？
接口方法解析？

初始化

除了加载阶段可以通过自定义的类加载器参与之外，其余动作完全由虚拟机主导和控制。到了初始化阶段，才真正执行类中定义的JAVA代码（字节码）

准备阶段和初始化阶段的区别？

在准备阶段，变量已经赋过一次系统要求的初始值，而在初始化阶段，根据程序员通过程序制定的主观计划去初始化类变量和其它资源，简单说，初始化阶段即虚拟机执行类构造器()方法的过程。

类构造器的运行特点？

()方法是由编译器自动收集类中所有类变量的赋值动作和静态语句块（static{} 块）中的语句合并产生的，编译器收集的顺序由语句在源文件中出现的顺序决定，特别注意的是，静态语句块只能访问到定义在它之前的类变量，定义在它之后的类变量只能赋值，不能访问。
()方法与类的构造函数（或者说实例构造器() 方法）不同，不需要显式的调用父类的()方法。虚拟机会自动保证在子类的()方法运行之前，父类的()方法已经执行结束。
由于父类的()方法先执行，也就意味着父类中定义的静态语句块要优于子类的变量赋值操作。
()方法对于类或接口不是必须的，如果一个类中不包含静态语句块，也没有对类变量的赋值操作，编译器可以不为该类生成()方法。
接口中不可以使用静态语句块，但仍然有类变量初始化的赋值操作，因此接口与类一样都会生成()方法。但接口与类不同的是，执行接口的()方法不需要先执行父接口的()方法。
虚拟机会保证一个类的()方法在多线程环境下被正确的加锁和同步，如果多个线程同时初始化一个类，只会有一个线程执行这个类的()方法，其它线程都会阻塞等待，直到活动线程执行()方法完毕。

类加载器

类加载器对类“相等”的影响？

Class文件和类加载器一同决定了一个类的唯一性
意味着同一个Class文件，如果是不同的类加载器加载的，那么他们就是不同的类

类加载器的分类？

从Java虚拟机的角度分为两种不同的类加载器：启动类加载器（Bootstrap ClassLoader）和其他类加载器。其中启动类加载器，使用C++语言实现，是虚拟机自身的一部分；其余的类加载器都由Java语言实现，独立于虚拟机之外，并且全都继承自java.lang.ClassLoader类。（这里只限于HotSpot虚拟机）

启动类加载器（Bootstrap ClassLoader）：这个类加载器负责将存放在<JAVA_HOME>\lib目录中的，或者被-Xbootclasspath参数所指定的路径中的，并且是虚拟机识别的（仅按照文件名识别，如rt.jar，名字不符合的类库即使放在lib目录中也不会被加载）类库加载到虚拟机内存中。
扩展类加载器（Extension ClassLoader）：这个加载器由sun.misc.Launcher$ExtClassLoader实现，它负责加载<JAVA_HOME>\lib\ext目录中的，或者被java.ext.dirs系统变量所指定的路径中的所有类库，开发者可以直接使用扩展类加载器。
应用程序类加载器（Application ClassLoader）：这个类加载器由sun.misc.Launcher$AppClassLoader实现。由于这个类加载器是ClassLoader中的getSystemClassLoader()方法的返回值，所以一般也称它为系统类加载器。它负责加载用户类路径（ClassPath）上所指定的类库，开发者可以直接使用这个类加载器，如果应用程序中没有自定义过自己的类加载器，一般情况下这个就是程序中默认的类加载器。

什么是双亲委托模型？为什么使用双亲委托模型？

双亲委派模型（Pattern Delegation Model）,要求除了顶层的启动类加载器外，其余的类加载器都应该有自己的父类加载器。这里父子关系通常是子类通过组合关系而不是继承关系来复用父加载器的代码。

双亲委派模型的工作过程：如果一个类加载器收到了类加载的请求，先把这个请求委派给父类加载器去完成（所以所有的加载请求最终都应该传送到顶层的启动类加载器中），只有当父加载器反馈自己无法完成加载请求时，子加载器才会尝试自己去加载。

使用双亲委派模型来组织类加载器之间的关系，有一个显而易见的好处就是java类随着它的类加载器一起具备了一种带有优先级的层次关系。

双亲委托模型为什么会被3次大规模的破坏？

第一次破坏是因为类加载器和抽象类java.lang.ClassLoader在JDK1.0就存在的，而双亲委派模型在JDK1.2之后才被引入，所以对于之前已经存在的用户自定义类加载器，是不符合双亲委托模型的，因此，为了引入双亲委派模型时做了一定的妥协：在java.lang.ClassLoader中引入了一个findClass()方法，DK1.2之后不提倡用户去覆盖loadClass()方法，而是把自己的类加载逻辑写到findClass()方法中。
第二次破坏是因为模型自身的缺陷，现实中存在这样的场景：基础的类加载器需要求调用用户的代码，而基础的类加载器可能不认识用户的代码。为此，Java设计团队引入的设计时“线程上下文类加载器（Thread Context ClassLoader）”。这样可以通过父类加载器请求子类加载器去完成类加载动作。已经违背了双亲委派模型的一般性原则。
第三次破坏是由于用户对程序动态性的追求导致的。这里所说的动态性是指：“代码热替换”、“模块热部署”等等比较热门的词。说白了就是希望应用程序能够像我们的计算机外设一样，接上鼠标、U盘不用重启机器就能立即使用。OSGi是当前业界“事实上”的Java模块化标准，OSGi实现模块化热部署的关键是它自定义的类加载器机制的实现。每一个程序模块（OSGi中称为Bundle）都有一个自己的类加载器，当需要更换一个Bundle时，就把Bundle连同类加载器一起换掉以实现代码的热替换。在OSGi环境下，类加载器不再是双亲委派模型中的树状结构，而是进一步发展为更加复杂的网状结构。