一个 docker host 上会运行若干容器,每个容器都需要 CPU、内存和 IO 资源。对于 KVM,VMware 等虚拟化技术,用户可以控制分配多少 CPU、内存资源给每个虚拟机。对于容器,Docker 也提供了类似的机制避免某个容器因占用太多资源而影响其他容器乃至整个 host 的性能。
在默认情况下,docker容器并不会对容器内部进程使用的内存大小进行任何限制。对于PaaS系统而言,或者对于直接使用docker的用户而言,这非常危险。如果哪个业务容器,出现了内存泄漏;那么它可能会危害到整个主机系统,导致业务app容器所在的主机出现oom。本文将介绍着眼于docker对内存资源的使用,解释背后的原理。同时也给出k8s上如何配置内存限制的方法。
内存限额
与操作系统类似,容器可使用的内存包括两部分:物理内存和 swap。 Docker 通过下面两组参数来控制容器内存的使用量。
-
-m
或--memory
:设置内存的使用限额,例如 100M, 2G。 -
--memory-swap
:设置 内存+swap 的使用限额。
当我们执行如下命令:
docker run -m 200M --memory-swap=300M centos7-ssh
其含义是允许该容器最多使用 200M 的内存和 100M 的 swap。默认情况下,上面两组参数为 -1,即对容器内存和 swap 的使用没有限制。
-m硬限制容器使用的内存
通过下面参数可以为容器设置一个内存使用量硬大小,当超出这个大小时刻,linux系统会根据配置设置决定是否进入oom-killer状态。
docker run --name zxy-docker -m 1g -it busybox bash
单位为:b,k,m和g,如果设置了-m参数,通常情况下如果容器使用内存量超过了设置的硬水线,那么linux的oom-killer触发,它将根据oom-score对容器内部进程进行oom kill。但是不影响宿主机上其他进程。
--oom-kill-disable
这个参数设置一定需要在容器run或者create过程中使用了-m参数才可以设置。设置了-m参数,如果容器使用内存超限了,那么oom-kill将触发。如果设置了--oom-kill-disable,那么容器不会oom,但是此时容器内部申请内存的进程将hang,直到他们可以申请到内存(容器内其他进程释放了内存)。绝对不要在没有使用-m的时候设置--oom-kill-disable 因为这会影响到宿主机的oom-killer,说这么多之间举个例子如下:
[root@localhost ~]# docker run -itd --name os1 --privileged=true -m 300M centos7-ssh
abb7c99eefe3e9f961bf5ad3e953a466860589f3d0c9f81251265273cea4cdee
[root@localhost ~]# docker stats
CONTAINER ID NAME CPU % MEM USAGE / LIMIT MEM % NET I/O BLOCK I/O PIDS
abb7c99eefe3 os1 0.00% 3.059MiB / 300MiB 1.02% 708B / 42B 0B / 0B 3
[root@localhost ~]# docker ps
CONTAINER ID IMAGE COMMAND CREATED STATUS PORTS NAMES
abb7c99eefe3 centos7-ssh "/bin/sh -c /usr/sbi…" About a minute ago Up About a minute os1
[root@localhost ~]# docker exec -it abb7c99eefe3 /bin/bash
[root@abb7c99eefe3 ansible]# yum install epel* stress -y
#触发oom-killer实验
--vm 1:启动 1 个内存工作线程
--vm-bytes 280M:每个线程分配 700M 内存
[root@abb7c99eefe3 ansible]# stress --vm 1 --vm-bytes 700M
stress: info: [69] dispatching hogs: 0 cpu, 0 io, 1 vm, 0 hdd
stress: FAIL: [69] (415) <-- worker 70 got signal 9
stress: WARN: [69] (417) now reaping child worker processes
stress: FAIL: [69] (451) failed run completed in 4s
[root@abb7c99eefe3 ansible]# dmesg | grep -Ti 'oom-killer'
[11489.084995] stress invoked oom-killer: gfp_mask=0xd0, order=0, oom_score_adj=0
背后的原理
docker 设置容器的-m是通过设置memory cgoup的memory.limit_in_bytes实现的。在没有设置-m的时候这个值为-1,表示容器使用的内存不受限制。例如:
`bash>docker run --name zxy-memorylimit -it -m 1g docker-build:12.06 bash
bash>docker inspect zxy-memorylimit|grep -i pid
“Pid”:24360
bash>cat /proc/24360/cgroup|grep memory
9:memory:/docker/xxxxx
bash>cd /sys/fs/cgroups/memory/docker/xxxx
bash> cat memory.limit_in_bytes
1073741824`
--oom-kill-disable参数实际设置的就是这是了同级目录之下的memory.oom_control,设置此参数就相当于做了如下动作bash> echo 1 >memory.oom_control,
对linux memory cgroup感兴趣的朋友可以参考:
--memory-reservation 软限制容器使用的内存
在上一节中,我们介绍了-m硬限制容器使用的内存资源。一旦设置了这个-m参数,那么容器内进程使用量超过这个数值,就会被杀或者hang住。docker还提供了一种soft limit就是--memory-reservation,单位和-m一致。当设置了这个参数以后,如果宿主机系统内存不足,有新的内存请求时刻,那么linux会尝试从设置了此参数的容器里回收内存,回收的办法就是swap了。那么如果此容器还在继续使用内存,那么此容器会遇到很大的性能下降。
通常实践是设置--memory-reservevation 的值小于-m的值。
背后的原理
和-m参数一致,此参数docker也是借助于memory cgroup的memory.soft_limit_in_bytes 实现。
其他内存资源参数
- --memory-swap
配置容器可以设置的swap大小。此值为-m值加上能达到的swap区大小,例如--memory-swap = 500M
-m =300M,意味着真正的swap大小可以的到200M。默认情况下容器可以得到最大swap大小为-m参数设置的两倍,此参数设置为0,为无效参数。如果--m和--memory-swap相等,相当于关闭容器的swap。值-1表示swap大小为不限 - --memory-swappiness
配置容器的swappiness属性,从0到100。0表示无论何种情况下都不要启动swap,100表示只要有可能就启动swap。
此参数和系统的/proc/sys/vm/swappiness
含义一致,不过它设置的容器所在memory cgroup的swappiness。
默认情况下容器的此值继承自主机侧的swappiness配置。对于centos系统和ubuntu系统,内存充裕可以设置为10.
- swappiness设置的是匿名页(anonymous page,也就是malloc和mmap以map_anonymous方式申请的内存)是否愿意交换出去
- 一个进程是否使用了swap空间以及使用了多少swap空间,可以用/proc/$pid/smap中所有内存区域的swap值进行累加可以计算出
docker做了什么
docker做的工作实际上是由runc完成的,docker 创建的hostconfig.json文件(也就是oci接口文件)中,有如下字段描述-m,--memory-reservation等内存资源限制参数:memory MemoryReservation MemorySwap MemorySwappiness
docker生产实践
- 永远需要设置-m
- 不要轻易设置--oom-kill-disable,memory-swappiness,memory-swap和memory-reservation,因为一半情况下,你不太容易理解它们真正如何作用于系统。
k8s如何使用docker限制内存的参数
下文节选自https://mp.weixin.qq.com/s/j2FfqUHSRTzczNcfPuwRQw
K8s资源限制是通过每个容器containerSpec的resources字段进行设置的,它是v1版本的ResourceRequirements类型的API对象。每个指定了"limits"和"requests"的对象都可以控制对应的资源。目前只有CPU和内存两种资源。大多数情况下,deployment、statefulset、daemonset的定义里都包含了podSpec和多个containerSpec。这里有个完整的v1资源对象的yaml格式配置:
`resources:
requests:
cpu: 50m
memory: 50Mi
limits:
cpu: 100m
memory: 100Mi
其中limits节限制memory设置的就是docker 容器的-m,而且k8s仅仅使用了-m参数其他参数都没有使用。