Bootstrap

java服务器gc停顿_JVM的GC停顿时间过长该怎么处理?

应用运行过程中是不希望出现长时间的GC停顿的,因为这会影响服务的可用性,导致用户体验变差,甚至会严重损害一些关键的应用程序。本文将会列出可能导致GC停顿时间长的一些原因和解决方案。

1. 对象创建的速度过高

如果应用创建对象的速度非常高,随之而来的就是GC频率也会变快,然后会导致GC的停顿时间变长。所以说,优化代码以降低对象的创建速率是降低GC停顿时间最有效的方法。这可能是一件非常耗时的事情,但是却非常值得去做。

可以使用JProfiler, YourKit, JVisualVM这样的性能监控工具来帮助优化对象的创建速度,这些工具会分析出:应用到底创建了哪些对象?对象创建的速度是多少?这些对象占用了多少内存空间?是谁创建的这些对象?所谓擒贼先擒王,因此首先要考虑优化那些占用内存最多的对象。

2. Young区过小

如果Young过小,对象就会过早的晋升到Old区,Old区的垃圾回收一般比Young区会花费更多的时间,因此,可以通过增大Young区来有效的降低长时间GC停顿。可以用下面两个JVM参数来设置Young区的大小:

-Xmn: 设置Young区所占的字节数

-XX:NewRatio: 设置Old区和Young区的比例,比如说,-XX:NewRatio=3也就是说Old区和Young区的比例是3:1,Young区占整个堆的1/4,如果堆是2G,那么Young区就是0.5G。

3. 选择合适的GC算法

GC算法是影响GC停顿时间的一个非常重要的因素,除非你是个GC方面的专家或者你的团队中有这方面的专家可以调优GC的设置达到最优的停顿时间,否则我建议选择使用G1收集器,因为G1是自动调优的,你只需要设置一个停顿时间的目标就可以了,比如: -XX:MaxGCPauseMillis=200。这个例子设置了最大停顿时间的目标是200ms,JVM会尽最大努力来满足这个目标。如果你已经使用了G1但是还是出现了长时间的GC停顿,那么请继续阅读本文。

4. 进程被交换(Swap)出内存

有时候由于系统内存不足,操作系统会把你的应用从内存中交换出去。Swap是非常耗时的,因为需要访问磁盘,相对于访问物理内存来说要慢得多的多。我认为生产环境下的应用是不应该被Swap出内存的。当发生进程Swap的时候,GC停顿时间也会变长。

下面是从stackoverflow上引用的一个脚本,它能够列出被Swap出内存的进程,要确保你的应用没有被Swap出内存。

#!/bin/bash

Get current swap usage for all running processes

Erik Ljungstrom 27/05/2011

#Modified by Mikko Rantalainen 2012-08-09

#Pipe the output to “sort -nk3” to get sorted output

#Modified by Marc Methot 2014-09-18

#removed the need for sudo

SUM=0

OVERALL=0

for DIR in find /proc/ -maxdepth 1 -type d -regex "^/proc/[0-9]+"

do

PID=echo $DIR | cut -d / -f 3

PROGNAME=ps -p $PID -o comm --no-headers

for SWAP in grep VmSwap $DIR/status 2>/dev/null | awk '{ print $2 }'

do

let SUM= S U M + SUM+ SUM+SWAP

done

if (( $SUM > 0 )); then

echo “PID=$PID swapped S U M K B ( SUM KB ( SUMKB(PROGNAME)”

fi

let OVERALL= O V E R A L L + OVERALL+ OVERALL+SUM

SUM=0

done

echo “Overall swap used: $OVERALL KB”

如果很不幸你的应用被Swap了,你需要:

给机器增加内存

减少机器上运行的进程数,以释放更多的内存

减少应用分配的内存(不推荐,可能会引起其他问题)

5. GC线程数过少

GC日志中的每一个GC事件都会打印user、sys、real time,比如:

[Times: user=25.56 sys=0.35, real=20.48 secs]

如果GC日志中,real time并不是明显比user time小,这就说明GC线程数是不够的,这就需要增加GC线程了。假如说,user time是25秒,GC线程数是5,那么real time大概是5左右才是正常的(25/5=5)。

注意:GC线程过多会占用大量的系统CPU,从而会影响应用能使用的CPU资源,因此增加GC线程之前一定要做好测试才可以。

6. IO负载重

如果系统的IO负载很重(大量的文件读写)也会导致GC停顿时间过长。这些IO读写不一定是你的应用引起的,可能是机器上其他的进程导致的,但是这仍然会导致你的应用的停顿时间变长。这里有个文章详细的说明了这种情况:https://engineering.linkedin.com/blog/2016/02/eliminating-large-jvm-gc-pauses-caused-by-background-io-traffic。 当IO负载很重的时候,real time会明显比user time长,比如:

[Times: user=0.20 sys=0.01, real=18.45 secs]

如果发生了这种情况,可以这么办:

如果是你的应用导致的,优化你的代码

如果是别的进程导致的,把它杀掉或者迁走

把你的应用迁到一个IO负载小的机器上

tip:如何来监控IO负载?在linux上可以用sar命令来监控IO的负载:sar -d -p 1,这个命令每隔一秒会打印一次每秒的读写数量。这里有sar的详细的用法:https://www.linuxtechi.com/generate-cpu-memory-io-report-sar-command/

7. 手动调用了System.gc()

当调用了System.gc()或者是Runtime.getRuntime().gc()以后,就会导致FullGC。FullGC的过程当中,整个JVM是暂停的(所有的应用都被暂停掉)。

System.gc()可能是以下几种情况产生的:

应用的程序员手动调用了System.gc()

应用引用的三方库或者框架甚至是应用服务器可能调用了System.gc()

可能是由外部使用了JMX的工具触发,比如:JVisualVM。

如果你的应用使用了RMI,RMI会每隔一段时间调用一次System.gc(),这个时间间隔是可以设置的:

– Dsun.rmi.dgc.server.gcInterval=n

– Dsun.rmi.dgc.client.gcInterval=n

要评估一下,是否真的有必要明确调用System.gc()。如果没有必要,就不要调用。同时,你也可以通过给JVM传递‘-XX:+DisableExplicitGC‘参数来禁用掉System.gc()。关于System.gc()的问题和解决方案可以参考:https://blog.gceasy.io/2016/11/22/system-gc/

8. 堆内存过大

堆内存过大也会导致GC停顿时间过长,如果堆内存过大,那么堆中就会累计过多的垃圾,当发生FullGC要回收所有的垃圾的时候,就会花费更多的时间。如果你的JVM的堆内存有18G,可以考虑分成3个6G的JVM实例,堆内存小会降低GC的停顿时间。 注意:在应用以上任何一种策略之前,都需要做好测试,这些策略对你可能都不适用,如果使用不当可能带来负面效果。

9. GC任务分配不均

就算有多个GC线程,线程之间的任务分配可能也不是均衡的,这个可能有很多种原因:

扫描大的线性的数据结构目前是无法并行的。

有些GC事件只发生在单个线程上,比如CMS中的‘concurrent mode failure’。如果你碰巧使用的CMS,可以使用-XX:+CMSScavengeBeforeRemark 这个参数,它可以让多个GC线程之间任务分配的更平均。

相关资源:JVM体系结构与GC调优总结_Java服务GC参数调优案例-Java文档类资源…

;