Docker网络模式和Cgroup资源限制

1、Docker网络

（1）Docker网络实现原理

Docker使用Linux桥接，在宿主机虚拟一个Docker容器网桥(docker0)，Docker启动一个容器时会根据Docker网桥的网段分配给容器一个IP地址，称为Container-IP，同时Docker网桥是每个容器的默认网关。因为在同一宿主机内的容器都接入同一个网桥，这样容器之间就能够通过容器的 Container-IP直接通信。

Docker网桥是宿主机虚拟出来的，并不是真实存在的网络设备，外部网络是无法寻址到的，这也意味着外部网络无法直接通过Container-IP访问到容器。如果容器希望外部网络能够访问到，可以通过映射容器端口到宿主主机（端口映射），即docker run创建容器时候通过-p或-P参数来启用，访问容器的时候就通过[宿主机IP]:[容器端口]访问容器。

docker run -d --name zx -P nginx:latest				#随机映射端口（从32768开始）
docker run -d --name a2 -p 1314:80 nginx:latest		#指定映射端口(将容器的80端口映射为宿主机的43000端口)
docker ps -a

-P随机生出映射端口

浏览器输入：20.0.0.10:32768 即可访问页面

-p指定映射端口

浏览器输入：20.0.0.10:520即可访问页面

用iptables命令可以查看映射转化

查看容器的输出和日志信息

docker logs 容器的ID/名称

2、Docker 的网络模式

Host：容器将不会虚拟出自己的网卡，配置自己的IP等，而是使用宿主机的IP和端口。
Container：创建的容器不会创建自己的网卡，配置自己的IP，而是和一个指定的容器共享IP、端口范围。
None：该模式关闭了容器的网络功能。
Bridge：默认为该模式，此模式会为每一个容器分配、设置IP等，并将容器连接到一个docker0虚拟网桥，通过docker0网桥以及iptables nat 表配置与宿主机通信。
自定义网络

安装Docker时，它会自动创建三个网络：bridge（创建容器默认连接到此网络）、 none 、host

查看docker列表

docker network ls	
docker network list

使用docker run创建Docker容器时，可以用- -net或- -network选项指定容器的网络模式

（1）网络模式详解

1）host模式

相当于Vmware中的桥接模式，与宿主机在同一个网络中，但没有独立IP地址。
Docker使用了Linux的Namespaces技术来进行资源隔离，如PID Namespace隔离进程，Mount Namespace隔离文件系统，Network Namespace隔离网络等。
一个Network Namespace提供了一份独立的网络环境，包括网卡、路由、iptable规则等都与其他的Network Namespace隔离。一个Docker容器一般会分配一个独立的Network Namespace。但如果启动容器的时候使用host模式，那么这个容器将不会获得一个独立的Network Namespace，而是和宿主机共用一个Network Namespace。容器将不会虚拟出自己的网卡、配置自己的IP等，而是使用宿主机的IP和端口。

语法格式：docker run -d --network=host 镜像名:标签

2）container模式

在理解了host模式后，这个模式也就好理解了。这个模式指定新创建的容器和已经存在的一个容器共享一个Network Namespace，而不是和宿主机共享。新创建的容器不会创建自己的网卡，配置自己的IP，而是和一个指定的容器共享IP、端口范围等。同样，两个容器除了网络方面，其他的如文件系统、进程列表等还是隔离的。两个容器的进程可以通过lo网卡设备通信。

创建tj容器，依赖于scj的IP

docker inspect -f '{{.State.Pid}}' scj    #查看容器进程号
ll /proc/5022/ns   #查看容器的进程、网络、文件系统等命名空间编号

查看可以发现两个容器的net namespace编号相同

3）none模式

使用none模式，Docker容器拥有自己的Network Namespace，但是，并不为Docker容器进行任何网络配置。也就是说，这个Docker容器没有网卡、IP、路由等信息。这种网络模式下容器只有lo回环网络，没有其他网卡。这种类型的网络没有办法联网，封闭的网络能很好的保证容器的安全性。

docker run -d --name a1 --network=none nginx:latest
docker ps -a
docker inspect a1  ##查看该容器的详细信息

4）bridge模式

bridge模式是docker的默认网络模式，不用–net参数，就是bridge模式。

相当于Vmware中的nat模式，容器使用独立network Namespace，并连接到docker0虚拟网卡。通过docker0网桥以及iptables nat表配置与宿主机通信，此模式会为每一个容器分配Network Namespace、设置IP等，并将一个主机上的Docker容器连接到一个虚拟网桥上。

（1）当Docker进程启动时，会在主机上创建一个名为docker0的虚拟网桥，此主机上启动的Docker容器会连接到这个虚拟网桥上。虚拟网桥的工作方式和物理交换机类似，这样主机上的所有容器就通过交换机连在了一个二层网络中。

（2）从docker0子网中分配一个IP给容器使用，并设置docker0的IP地址为容器的默认网关。在主机上创建一对虚拟网卡veth pair设备。 veth设备总是成对出现的，它们组成了一个数据的通道，数据从一个设备进入，就会从另一个设备出来。因此，veth设备常用来连接两个网络设备。

（3）Docker将veth pair设备的一端放在新创建的容器中，并命名为eth0（容器的网卡），另一端放在主机中，以veth*这样类似的名字命名，并将这个网络设备加入到docker0网桥中。可以通brctl show命令查看。

（4）使用docker run -p时，docker实际是在iptables做了DNAT规则，实现端口转发功能。可以使用iptables -t nat -vnL查看。

启动容器不加--network，默认是bridge模式，它会为容器自动分配一个IP，也是默认网关

5）自定义网络

直接使用bridge模式，是无法支持指定IP运行docker的，例如执行以下命令就会报错

docker run --name a1 -d --ip 172.17.0.100 nginx:latest

无法指定IP

创建自定义网络

可以先自定义网络，再使用指定IP运行docker

docker network create --subnet=172.18.0.0/16 --opt "com.docker.network.bridge.name"="docker1"  mynetwork
----------------------------------------------------------------------------------------------------------
#docker1 为执行 ifconfig -a 命令时，显示的网卡名，如果不使用 --opt 参数指定此名称，那你在使用 ifconfig -a 命令查看网络信息时，看到的是类似 br-110eb56a0b22 这样的名字，这显然不怎么好记。
#mynetwork 为执行 docker network list 命令时，显示的bridge网络模式名称。
----------------------------------------------------------------------------------------------------------
 
docker network create --subnet=172.18.0.0/16 --opt "com.docker.network.bridge.name"="docker1" mynetwork
 
docker run -d --name c2 --network=mynetwork --ip 172.18.0.100 nginx:latest
 
docker inspect c2 | grep "IPAddress"  #查看ip

3、Cgroup资源控制

（1）CPU 资源控制

1）设置CPU使用率上限

Linux通过CFS（Completely Fair Scheduler，完全公平调度器）来调度各个进程对CPU的使用。CFS默认的调度周期是100ms。
我们可以设置每个容器进程的调度周期，以及在这个周期内各个容器最多能使用多少 CPU 时间。

使用 --cpu-period 即可设置调度周期，使用 --cpu-quota 即可设置在每个周期内容器能使用的CPU时间。两者可以配合使用。
CFS 周期的有效范围是 1ms~1s，对应的 --cpu-period 的数值范围是 1000~1000000。
而容器的 CPU 配额必须不小于 1ms，即 --cpu-quota 的值必须 >= 1000。

docker ps -a
cd /sys/fs/cgroup/cpu/docker/c9689a53a0104fb941020eced4226ffca841cbed64501e69ed0e3d27c65ec1f7
---------------------------------------------------------------------------------------------------------
#cpu.cfs_period_us：cpu分配的周期(微秒，所以文件名中用 us 表示），默认为100000。
#cpu.cfs_quota_us：表示该cgroups限制占用的时间（微秒），默认为-1，表示不限制。 如果设为50000，表示占用50000/100000=50%的CPU。
---------------------------------------------------------------------------------------------------------

下载并使用压测工具

docker pull centos:7    下载测试所用镜像
docker run -id --name a1 centos:7 bash    创建运行容器
docker ps -a
 
docker cp CentOS-Base.repo a1:/etc/yum.repos.d/   #复制阿里云镜像到a1容器中
docker exec -it a1 sh   #登录a1容器
cd /etc/yum.repos.d/
 
安装stress
yum install -y epel-release
yum install -y stress

再开一个窗口，发现两个CPU都为100%用光了所有资源（top之后按1）

对已经存在的容器做资源限制

设置资源占用时间为50000，总周期的一半，代表CPU最大只能占用总周期的一半

测试1：

不会超过50%

测试2：

两个加起来也不会超过50%

创建容器时做资源限制

重新创建运行一个容器，--cpu-period指定1000000周期，--cpu-quota指定500000占用时间

将stress工具传给容器a2，也可以更改在线源下载

进入容器a2进行压测测试

再打开一个窗口（top之后按1），不超过50%

2）设置CPU资源占用比（设置多个容器时才有效）

Docker 通过 --cpu-shares 指定 CPU 份额，默认值为1024，值为1024的倍数。
#创建两个容器为 c1 和 c2，若只有这两个容器，设置容器的权重，使得c1和c2的CPU资源占比为1/3和2/3

docker run -id --name c1 --cpu-shares 1024 centos:7 bash
docker run -id --name c2 --cpu-shares 2048 centos:7 bash
 
docker cp stress-1.0.4-16.el7.x86_64.rpm c1:/
docker cp stress-1.0.4-16.el7.x86_64.rpm c2:/   #将stress压测工具传给两个容器并安装
 
docker exec -it c1 bash
rpm -ivh stress-1.0.4-16.el7.x86_64.rpm
 
docker exec -it c2 bash
rpm -ivh stress-1.0.4-16.el7.x86_64.rpm       #分别为两个容器安装stress
 
stress -c 2   #为两个容器开启压测

同时进行压测测试

再开一个窗口查看

docker stats c2:c1=2:1

同样的ip端口再添加一台容器c3并加入
docker run -id --name c3 --cpu-shares 1024 centos:7 bash
docker cp /opt/stress-1.0.4-16.el7.x86_64.rpm c3:/
exec -it c3 bash
rpm -ivh stress-1.0.4-16.el7.x86_64.rpm
stress -c 2
 
重新开启一个端口进行验证
docker stats

3）设置容器绑定指定的CPU

docker run -id --name c1 --cpuset-cpus 0 centos:7 bash
docker run -id --name c2 --cpuset-cpus 1 centos:7 bash    #使用--cpuset-cpus cpu序号绑定具体cpu
 
docker cp /opt/stress-1.0.4-16.el7.x86_64.rpm c1:/
docker cp /opt/stress-1.0.4-16.el7.x86_64.rpm c2:/  #上传压测工具
 
docker exec -it c1 bash
rpm -ivh stress-1.0.4-16.el7.x86_64.rpm
stress -c 2
 
再开启一个端口验证
top 然后输入1

c1绑定的0号cpu，因此只有0号cpu运行

关闭c1，开启c2验证
docker exec -it c2 bash
rpm -ivh stress-1.0.4-16.el7.x86_64.rpm
stress -c 2
 
top验证

也可绑定多个cpu
docker run -id --name c3 --cpuset-cpus 0,1 centos:7 bash  #以逗号分隔cpu序号
docker cp stress-1.0.4-16.el7.x86_64.rpm c3:/
docker exec -it c3 bash
rpm -ivh stress-1.0.4-16.el7.x86_64.rpm
stress -c 2
 
另开一台端口使用top验证

（2）对内存使用的限制

-m(--memory=) 选项用于限制容器可以使用的最大内存

docker run -id --name a1 -m 512m centos:7 bash
docker stats

限制可用的 swap 大小， --memory-swap；--memory-swap 是必须要与 --memory 一起使用的

正常情况下，--memory-swap 的值包含容器可用内存和可用 swap。
所以 -m 300m --memory-swap=1g 的含义为：容器可以使用 300M 的物理内存，并且可以使用 700M（1G - 300）的 swap。
 
如果 --memory-swap 设置为 0 或者 不设置，则容器可以使用的 swap 大小为 -m 值的两倍。
如果 --memory-swap 的值和 -m 值相同，则容器不能使用 swap。
如果 --memory-swap 值为 -1，它表示容器程序使用的内存受限，而可以使用的 swap 空间使用不受限制（宿主机有多少 swap 容器就可以使用多少）。

（3）对磁盘IO配额控制（blkio）的限制

--device-read-bps：限制某个设备上的读速度bps（数据量），单位可以是kb、mb(M)或者gb。
--device-write-bps ： 限制某个设备上的写速度bps（数据量），单位可以是kb、mb(M)或者gb。       
--device-read-iops ：限制读某个设备的iops（每秒读次数）
--device-write-iops ：限制写入某个设备的iops（每秒写次数）
 
#通过dd来验证写速度
dd if=/dev/zero of=test.txt bs=1M count=10 oflag=direct				#添加oflag参数以规避掉文件系统cache
 
 
 
#在Docker 25版本之后，--device-write-bps选项已无效

清理docker占用的磁盘空间

docker system prune -a			#可以用于清理磁盘，删除关闭的容器、无用的数据卷和网络