转载

JVM笔记-后端编译与优化

1. 概述

前面分析了 JVM 的前端编译器 Javac，本文分析后端编译器：即时编译器（JIT 编译器）和提前编译器（AOT 编译器）。

其实二者都不是 JVM 必需的组成部分。但是，后端编译器编译性能的好坏、代码优化质量的高低，却是衡量一款商用 JVM 优秀与否的关键指标之一，也是其核心所在。

2. 即时编译器

目前主流的两款商用 JVM（HotSpot、OpenJ9）中，Java 程序最初都是通过「解释器（Interpreter）」解释执行的，当 JVM 发现某个方法或代码块的执行特别频繁，就会认为它们是“热点代码（Hot Spot Code）”。

为了提高热点代码的执行效率，JVM 会在「运行时」把这部分代码编译成本地机器码，并用各种手段去优化代码。运行时完成这个任务的后端编译器被称为「即时编译器」。

这种机制可以类比我们平时调用接口查询数据：

某个接口如果查询比较简单、且访问量较少，就没必要使用缓存，直接查询数据库就行；
当该接口访问量很大时，为了提高查询效率，可以使用缓存提高效率。

HotSpot VM 内置了三个即时编译器，分别为：

客户端编译器（Client Compiler），简称 C1 编译器。
服务端编译器（Server Compiler），简称 C2 编译器，或 Opto 编译器。
Graal 编译器（JDK 10 出现，长期目标是替代 C2 编译器）。

2.1 解释器与编译器

2.1.1 执行流程

解释器的执行流程大致如下：

输入的代码 -> [ 解释器 解释执行 ] -> 执行结果

即时编译器的执行流程大致如下：

输入的代码 -> [ 编译器 编译 ] -> 编译后的代码 -> [ 执行 ] -> 执行结果

此处引用了 RednaxelaFX 大佬在知乎的回答，链接：https://www.zhihu.com/question/37389356/answer/73820511 。若想了解更深层次的内容，要去看编译原理相关的书了。

2.1.2 对比分析

目前主流的商用 JVM 内部都同时包含解释器与编译器，二者各有优势：

程序需要迅速启动和执行时，解释器可以省去编译时间，立即执行。
程序启动后，编译器逐渐发挥作用，把越来越多的代码编译成本地代码，可以减少解释器的中间消耗，提高执行效率。
若运行环境的内存资源限制较大，可使用解释器执行节约内存；反之可使用编译执行来提升效率。

总结起来就是：

解释器启动较快，占用内存较小，但是执行效率稍低。
编译器启动较慢，占用内存较大，但执行效率较高。

此外，解释器还可以作为编译器激进优化时后备的“逃生门”，也就是给编译器来“兜底”，反之则不行。

凡事有利弊。这里仍以查询接口为例做类比：

解释执行可以理解为直接查询数据库，也就是不使用缓存。程序启动起来比较快（无需连接缓存服务器），但后面运行的时候由于每次都要去查数据库，会有磁盘 IO 开销，会相对慢一些。
而编译执行就相当于使用了缓存。虽然启动会稍慢一些（需要连接缓存服务器，初次查询时既要查询数据库，又要存入缓存），而且需要额外的开销（需要缓存服务器），但是后续的查询效率会提高很多，因为可以直接从缓存获取，不必再查询数据库。

因此，使用缓存其实就是“空间换时间”，编译器与解释器也可以类比来理解。

2.1.3 运行模式

解释器与编译器配合使用的方式在虚拟机中被称为“混合模式（Mixed Mode）”，比如我们查看 JDK 版本时：

$ java -version
java version "1.8.0_191"
Java(TM) SE Runtime Environment (build 1.8.0_191-b12)
Java HotSpot(TM) 64-Bit Server VM (build 25.191-b12, mixed mode)

最后面的 mixed mode 就表示混合模式。

此外，也可以使用参数 -Xint 强制虚拟机运行于“解释模式（Interpreter Mode）”：

$ java -Xint -version
java version ...
...
... (build 25.191-b12, interpreted mode)

还可以使用参数 -Xcomp 强制虚拟机运行于“编译模式（Compiled Mode）”：

$ java -Xcomp -version
java version ...
...
... (build 25.191-b12, compiled mode)

2.2 分层编译

JIT 编译器的编译过程是在「运行期」，这就不可避免会占用应用程序的资源。而且，想要把代码优化得更好，就要花费更多的时间。而且可能还需要解释器帮忙收集一些性能监控信息，又降低了解释器的效率。这可怎么办？

那找个折衷的方案？其实就是分层编译（Tiered Compilation）。

分了哪几个层次呢？主要包括：

程序纯解释执行，且解释器不开启性能监控功能。
使用 C1 编译器将字节码编译为本地代码来执行，进行简单可靠的稳定优化，不开启性能监控功能。
使用 C1 编译器执行，仅开启一部分性能监控功能（方法及回边次数统计等）。
使用 C1 编译器执行，开启全部性能监控（在第二层之外，还会收集如分支跳转、虚方法调用版本等全部的统计信息）。
使用 C2 编译器将字节码编译为本地代码（相比 C1 编译器，C2 编译器会启用更多编译耗时更长的优化，还会根据性能监控信息进行一些不可靠的激进优化）。

这几个层次并非固定不变，可以根据不同的运行参数灵活使用。

2.3 热点代码

运行时会被即时编译器编译的目标是“热点代码”，主要包括下面两类：

被多次调用的方法。
被多次执行的循环体。

前者比较容易理解：一个方法被调用的次数多了，自然就成了热点代码。

后者是什么场景呢？当一个方法被调用的次数虽然不多，但方法体内部存在循环次数较多的循环体。这种代码也是“热点代码”（可以理解为方法的一部分是热点代码）。比如：

public void test() {
  // 一些其他代码...
  
  // 即便 test() 方法被调用的次数不多，但当 N 足够大时，该部分代码也会成为“热点代码”
  for (int i=0; i<N; i++) {
    // 执行一些操作...
  }
  
  // 一些其他代码...
}

前者是 JVM 标准的即时编译。

至于后者，虽然热点代码只是方法的一部分，但编译器仍会把「整个方法」作为编译对象，只是入口不同（并非从方法的第一行代码开始）。由于该情况发生在方法执行的过程中，也被称为栈上替换（On Stack Replacement，OSR）。也就是方法的栈帧还在栈上，但方法已经被替换了（“狸猫换太子”）。

PS: 每个方法被执行时，虚拟机栈都会创建一个栈帧（Stack Frame）用于存储局部变量表、操作数栈等信息。每个方法从被调用直至执行完毕的过程，就对应着一个栈帧在虚拟机栈中从入栈到出栈的过程。

2.4 热点探测

关于热点代码的判定，前面一直提的都是“多次”，到底多少次才叫“多”呢？这个问题不仅要“定性”，还要“定量”。

要判定一段代码是不是热点代码、是否触发即时编译的行为称为“热点探测（Hot Spot Code Detection）”。

2.4.1 定量方法

热点探测的主流方法有以下两种：

基于采样的热点探测（Sample Based Hot Spot Code Detection）

就是每隔一段时间去检查一下所有线程的调用栈顶，若发现某个（或某些）方法经常出现在栈顶，该方法就会被认为是“热点代码”。J9 虚拟机使用过该方法。

这种做法的优缺点如下：

优点：实现简单高效，而且可以通过堆栈信息获取到方法之间的调用关系；
缺点：难以精确的确定方法热度，容易受到线程阻塞的干扰（即方法阻塞时可能长时间处于栈顶，可能产生误判）。

基于计数器的热点探测（Counter Based Hot Spot Code Detection）

为每个方法（或代码块）建立计数器来统计方法的执行次数，当次数超过一定的阈值就认为是“热点代码”。HotSpot 虚拟机就是使用该方法进行探测的。

该方法的同样也有优缺点：

优点：统计结果更加精确严谨；
缺点：统计起来稍麻烦（要为每个方法建立并维护计数器），而且不能直接获取到方法的调用关系。

2.4.2 两种计数器

HotSpot 为每个方法准备了两类计数器，下面分别介绍。

2.4.2.1 方法调用计数器

方法调用计数器（Invocation Counter）用来统计方法被调用的次数。它在客户端和服务端模式下的默认阈值分别为 1500 次和 10000 次。

该计数器触发即时编译的流程图如下：

PS: 方法调用计数器统计的并非方法被调用的绝对次数，而是是一个相对的执行频率。

什么意思呢？

也就是在一段时间内，如果方法的调用次数未到达阈值，计数器就会减少为原先的一半。该过程被称为热度衰减（Counter Decay），这段时间则被称为半衰周期（Counter Half Life Time）。

比如，若阈值是 10000，半衰周期是 1 小时。如果在 1 小时内，某个方法被调用了 8000 次（未达到即时编译的条件），计数器就会认为该方法没那么“热”，就要给它“泼冷水”，把次数降为 4000 （纯属个人理解）。

当然，有 JVM 参数可以对此进行调整，如下：

# 指定计数器的阈值
-XX:CompileThreshold

# 关闭热度衰减
-XX:-UseCounterDecay

# 设置半衰期时间（秒）
-XX:CounterHalfLifeTime

2.4.2.2 回边计数器

回边计数器（Back Edge Counter）用来统计方法中循环体代码执行的次数（字节码中遇到控制流向后跳转的指令称为“回边”），目的是为了触发栈上替换。

回边计数器触发即时编译的流程如下：

与此相关的几个 JVM 参数：

# OSR 比率，默认 933
-XX:OnStackReplacePercentage

# 解释器监控比率，默认 33
-XX:InterpreterProfilePercentage

3. 提前编译器

对提前编译的研究主要有下面两条分支。

3.1 静态翻译

第一条就是在程序运行之前，把程序代码“翻译”成机器码。

JIT 编译器的主要缺点在于：它是在「运行期」进行编译的。这就不可避免地要占用应用程序的运行资源（CPU、内存等），进而影响程序的执行性能。

而这种提前编译就是把这个编译阶段放到程序的「运行期」之前，这样就可以不占用应用程序的资源。

3.2 即时编译缓存

其实就是把 JIT 编译器要做的编译工作先做好，并保存下来，当触发 JIT 编译时，直接调用这里的代码就好了。本质上就是给 JIT 编译做缓存。

这种方式也被称为动态提前编译（Dynamic AOT）或者即时编译缓存（JIT Caching）。

3.3 即时编译&提前编译

从上面对提前编译器的分析来看，似乎提前编译比 JIT 编译运行效率更高。那它就没缺点了吗？当然不是，否则还要 JIT 编译器干嘛。

相比提前编译器，JIT 编译器的优势在哪里呢？

性能分析制导优化

解释器或客户端编译器在运行的过程中，会不断收集性能监控信息（方法版本选择、条件判断等），这些信息可以帮助 JIT 编译器对代码进行集中优化。

这一点在静态分析时是很难做到的。

激进预测性优化

也就是 JIT 编译器可以进行一些稍微“激进”的优化行为，即便这些行为失败了，也有解释器可以“兜底”。而静态优化就做不到了。

此外，提前编译还会破坏 Java 平台中立性、产生字节膨胀等问题。

4. 编译器优化技术

前面分析了 JIT 编译器和提前编译器，它们做的都是“翻译”工作。但关键问题不在于“能不能”翻译，而是翻译的“好不好”。也就是编译出来的代码质量高不高。

那么，它们用什么手段来提升“翻译”的质量呢？

HotSpot VM 的 JIT 编译器使用了不少优化技术（可参考：https://wiki.openjdk.java.net/display/HotSpot/PerformanceTacticIndex），下面介绍几个非常重要的。

PS: JIT 编译器对代码的优化，这里的“代码”并非我们编写的源代码，而是被编译后的字节码或者机器码。毕竟已经通过类加载器把 Class 文件加载到 JVM 了。

4.1 方法内联

方法内联是编译器最重要的优化手段，业内戏称为“优化之母”。是其他优化手段的基础。

它的行为理解起来其实很简单：就是在方法调用中，把目标方法的代码“复制”到调用的方法之中，避免发生真实的方法调用。示例代码如下：

public static void foo() {
  if (obj != null) {
    System.out.println("hello");
  }
}

public static void testInline() {
  Object obj = null;
  foo(obj);
}

该段代码实际是无用代码（Dead Code），经过方法内联（把 foo 方法的代码代入到 testInline 方法中）之后可以发现。

但若不做内联，后续即便进行了无用代码消除的优化，也无法发现该无用代码。

4.2 逃逸分析

逃逸分析（Escape Analysis）是目前 JVM 中比较前沿的优化技术。但它并不直接优化代码，而是一种为其他优化措施提供依据的分析技术。

它的基本原理是分析对象的动态作用域，当一个对象在方法中被定义后，按照逃逸程度从低到高可分为：

不逃逸：对象只能在本方法内使用。
方法逃逸：对象可能被外部方法引用（例如作为调用参数传递到其他方法）。
线程逃逸：对象可能被外部线程访问到（例如赋值给线程共享的变量）。

若一个对象未发生逃逸，或者逃逸程度较低，可以为这个对象采取不同程度的优化。

4.2.1 栈上分配

JVM 中，对象的内存空间分配在堆上似乎是一个常识。当对象不再使用时，垃圾收集器会将其内存空间回收，这个过程其实是要消耗大量资源的。

假如……把对象的内存空间分配到栈上呢？

What ？？？这简直是颠覆认知！

但是，不妨沿着这个思路考虑一下：如果这样做了有什么好处呢？

这样一来对象占用的内存空间就会随着栈帧出栈而销毁，不必再由垃圾收集器费时费力地去回收了，可以节省不少资源。这样一想似乎也是不是不可以。

这就是所谓的栈上分配（Stack Allocations），它可以支持「方法逃逸」，但不支持线程逃逸。

PS：由于复杂度等原因，HotSpot 目前暂未做这项优化，但有些 JVM（例如 Excelsior JET）已经在使用了。

4.2.2 标量替换

先看一下标量（Scalar）和聚合量（Aggregate）的概念：

标量：无法再分解为更小数据的数据，例如 JVM 中的原始数据类型（int、long、reference 等）。
聚合量：可以继续分解的数据，例如 Java 中的对象。

所谓「标量替换（Scalar Replacement）」，就是根据实际访问情况，将一个对象“拆解”开，把用到的成员变量恢复为原始类型来访问。

简单来说，就是把聚合量替换为标量。

若一个对象不会逃逸出「方法」，且可以被拆散，那么程序真正执行时就可能不去创建这个对象，而是直接创建它的若干个被该方法使用的成员变量代替。

还有这操作？

其实细想一下，这个操作跟前面的「栈上分配」还是有些类似的：栈上分配的是对象，而标量替换则是在栈上分配对象的一部分成员变量，连对象都懒得创建了。

4.2.3 同步消除

线程同步本身相对耗时，如果逃逸分析能够确定一个变量不会逃逸出线程，则该变量的读写就不会有线程安全问题，对该变量的同步措施就可以安全的消除了。

换句话说，如果对线程安全的数据加了锁，JVM 就可以把它优化消除。示例代码如下：

public void t1() {
    // 变量 o 不会逃逸出线程。因此，对它加的锁就可以被消除
    Object o = new Object();
    synchronized (o) {
        System.out.println(o.toString());
    }
}

4.3 代码示例

上面介绍了方法内联和逃逸分析的相关优化手段，这里以伪代码的形式演示它们优化的过程。

原始代码

// 原始代码
public class Point {
  private int x;
  private int y;
  // getter/setter ...
}

public int test(int x) {
  int xx = x + 2;
  Point p = new Point(xx, 42);
  return p.getX();
}

方法内联

首先，将 Point 的构造函数和 getX() 方法进行内联：

// 方法内联优化后
public int test(int x) {
  int xx = x + 2;
  Point p = point_memory_alloc(); // 堆中分配内存示意方法
  p.x = xx; // Point 构造函数内联后
  p.y = 42;
  return p.x; // p.getX() 方法内联后
}

逃逸分析

经过逃逸分析，发现 Point 对象不会逃逸出 test() 方法，可以进行「标量替换」，如下：

// 标量替换优化后
public int test(int x) {
  int xx = x + 2;
  int px = xx; // 标量替换
  int py = 42;
  return px;
}

无效代码消除

经过数据流分析，发现变量 py 对方法不会造成任何影响，可以进行消除，如下：

// 无效代码消除优化后
public int test(int x) {
  return x + 2;
}

可以看到，原始代码经过一系列的优化，最终结果简洁了很多。

更少的代码也意味着占用的内存空间更少，执行起来效率也更高，这也是优化的意义所在。

4.3 公共子表达式消除

4.3.1 公共子表达式

所谓公共子表达式，就是当有一个表达式 E 在以前被计算过，而且下次再遇到的时候 E 的所有变量都未改变，则这次 E 的出现就被称为「公共子表达式」。也就是不必再花功夫重新计算，直接拿来用就好了。有木有“缓存”的感觉？

根据作用域，公共子表达式的消除可分为两种：局部公共子表达式消除和全局公共子表达式消除。

4.3.2 示例代码

若有如下代码：

public class Test {
    public int t1() {
        int a=1, b=2, c=3;
        int d = (c * b) * 12 + a + (a + b * c);
        return d;
    }
}

Javac 编译后生成的字节码如下：

  public int t1();
    descriptor: ()I
    flags: ACC_PUBLIC
    Code:
      stack=4, locals=5, args_size=1
         # ...
         6: iload_3
         7: iload_2
         8: imul    # 计算 b*c
         9: bipush        12
        11: imul    # 计算 (c * b) * 12
        12: iload_1
        13: iadd    # 计算 (c * b) * 12 + a
        14: iload_1
        15: iload_2
        16: iload_3
        17: imul    # 计算 b*c
        18: iadd    # 计算 (a + b * c)
        19: iadd    # 计算 (c * b) * 12 + a + (a + b * c)
        20: istore        4
        22: iload         4
        24: ireturn
        # ...

Javac 编译器并未做任何优化，每次都会重新计算。

这段代码进入即时编译器后，将进行如下优化：

编译器检测到 c * b 与 b * c 是一样的表达式，且在计算期间 b 和 c 的值不变，因此：

int d = E * 12 + a + (a + E);

此时，编译器还可能进行代数化简（Algebraic Simplification），如下：

int d = E * 13 + a + a;

这样计算起来就可以节省一些时间。

4.4 数组边界检查消除

假如有一个数组 array，当我们访问数组下标在 [0, array.length) 范围之外的元素时，就会抛出 java.lang.ArrayIndexOutOfBoundsException 异常，也就是数组越界了，例如：

public void test1() {
  String[] array = new String[]{"a", "b", "c"};
  // 数组越界
  String s = array[3];
}

其实是 JVM 在执行的时候隐含了一次边界判断（运行期）。当这样的判断很多时，肯定对性能有一定的影响。

但这个判断看起来似乎又是必要的，就不能优化了吗？

实际上也并非不能，如果把这些判断放在编译期呢？代码在编译的时候，就根据控制流分析（可参考前文的前端编译）是否会产生数组越界，那么在运行期间不是就不用判断了吗？

5. 小结

本文主要分析了即时编译器和提前编译器，主要内容梳理如下：

JVM笔记-后端编译与优化

其他链接

关于本站

本站定位：个人技术类博客

本站作用：写博客、记日志、闲聊扯淡鼓捣技术。

问题交流

JVM笔记-后端编译与优化

1. 概述

2. 即时编译器

2.1 解释器与编译器

2.1.1 执行流程

2.1.2 对比分析

2.1.3 运行模式

2.2 分层编译

2.3 热点代码

2.4 热点探测

2.4.1 定量方法

2.4.2 两种计数器

2.4.2.1 方法调用计数器

2.4.2.2 回边计数器

3. 提前编译器

3.1 静态翻译

3.2 即时编译缓存

3.3 即时编译&提前编译

4. 编译器优化技术

4.1 方法内联

4.2 逃逸分析

4.2.1 栈上分配

4.2.2 标量替换

4.2.3 同步消除

4.3 代码示例

4.3 公共子表达式消除

4.3.1 公共子表达式

4.3.2 示例代码

4.4 数组边界检查消除

5. 小结

热门推荐

相关文章

说给你听

本文目录

随机标签

书籍教程

近期评论

网站信息

其他链接

关于本站

问题交流