1.初识
介绍docker的网络之前,必须先认识docker所依赖的几个linux技术,这对理解docker的网络有帮助。本节仅简单介绍。
1.1 网络命名空间:
Linux Namespaces 机制提供一种资源隔离方案。PID
,IPC
,Network
等系统资源不再是全局性的,而是属于特定的Namespace
。每个Namespace里面的资源对其他Namespace都不可见。Linux提供6种命名空间,网络命名空间是其中的一种。
一个Network Namespace提供了一份独立的网络环境,包括网卡、路由、Iptable规则等都与其他的Network Namespace隔离。一个Docker容器“通常”会分配一个独立的Network Namespace。“通常”的意思是如果docker以host模式启动则与主机在同一个命名空间。
这样每个docker容器就好像拥有了一套独立的网络环境,甚至以为自己霸占了全部的主机,也许这也是使人们经常认为容器就是虚机的原因之一。
1.2 Veth设备对
Veth设备对可以在不同的网络命名空间之间通信,用他们可以连接两个网络命名空间。一对veth设备就像网线的两头一样。
1.3 网桥
简单来说,桥接就是把一台机器上的若干个网络接口“连接”起来。其结果是,其中一个网口收到的报文会被复制给其他网口并发送出去。以使得网口之间的报文能够互相转发。类似交换机。
linux内核支持网口的桥接与交换机有一点点不同不同,交换机只是一个二层设备,对于接收到的报文,要么转发、要么丢弃。而运行着linux内核的机器本身就是一台主机,有可能就是网络报文的目的地。其收到的报文除了转发和丢弃,还可能被送到网络协议栈的上层(网络层),从而被自己消化。
在docker启动时,会在主机上创建一个docker0网桥。通过docker0在同一个主机上的容器之间都可以通信,外部的消息也可以经过docker0进入容器。后面还会讲到。
ifconfig
docker0 Link encap:以太网 硬件地址 02:42:df:66:95:96
inet 地址:172.17.0.1 广播:0.0.0.0 掩码:255.255.0.0
inet6 地址: fe80::42:dfff:fe66:9596/64 Scope:Link
UP BROADCAST RUNNING MULTICAST MTU:1500 跃点数:1
2 Docker网络模式
Docker有以下4种网络模式:
- host模式,使用
--net=host
指定。 - container模式,使用
--net=container:NAME_or_ID
指定。 - none模式,使用
--net=none
指定。 - bridge模式,使用
--net=bridge
指定,默认设置。
2.1 Bridge模式
2.1.1 模式介绍
我们重点讲这个模式。Bridge是默认模式,正常docker启动时都已这个模式启动。在这个模式下当Docker server启动时,会在主机上创建一个名为 docker0 的虚拟网桥,此主机上启动的Docker容器会连接到这个虚拟网桥上。Docker0拥有一个自己的ip地址,有的书上说是172.17.42.1,但是我的机器上是172.17.0.1。总之是个172段的内部地址,机器外是访问不了的。
ifconfig
docker0 Link encap:以太网 硬件地址 02:42:df:66:95:96
inet 地址:172.17.0.1 广播:0.0.0.0 掩码:255.255.0.0
inet6 地址: fe80::42:dfff:fe66:9596/64 Scope:Link
UP BROADCAST MULTICAST MTU:1500 跃点数:1
接收数据包:7 错误:0 丢弃:0 过载:0 帧数:0
发送数据包:30 错误:0 丢弃:0 过载:0 载波:0
碰撞:0 发送队列长度:0
接收字节:480 (480.0 B) 发送字节:4909 (4.9 KB)
eth0 Link encap:以太网 硬件地址 08:00:27:02:6c:8b
inet 地址:10.43.86.110 广播:10.43.86.255 掩码:255.255.255.0
inet6 地址: fe80::a00:27ff:fe02:6c8b/64 Scope:Link
UP BROADCAST RUNNING MULTICAST MTU:1500 跃点数:1
接收数据包:140296 错误:0 丢弃:0 过载:0 帧数:0
发送数据包:30286 错误:0 丢弃:0 过载:0 载波:0
碰撞:0 发送队列长度:1000
接收字节:9847208 (9.8 MB) 发送字节:2946052 (2.9 MB)
lo Link encap:本地环回
inet 地址:127.0.0.1 掩码:255.0.0.0
inet6 地址: ::1/128 Scope:Host
UP LOOPBACK RUNNING MTU:65536 跃点数:1
接收数据包:130 错误:0 丢弃:0 过载:0 帧数:0
发送数据包:130 错误:0 丢弃:0 过载:0 载波:0
碰撞:0 发送队列长度:0
接收字节:17199 (17.1 KB) 发送字节:17199 (17.1 KB)
Docker容器处在自己的网络命名空间中,容器之间怎么互通呢,就是连这个docker0网桥。这里就用到前面另一个概念veth对。可以把veth对看成网线的两头,他一头在容器里另一头在主机上。下面我们建个容器,然后看看主机上ip的变化。
$ docker run -it ubuntu // 启动一个ubuntu镜像
root@3337bb998bf3:/# ifconfig // 容器里的ip地址
eth0 Link encap:Ethernet HWaddr 02:42:ac:11:00:03// 这个硬件地址也是docker分配的
inet addr:172.17.0.3 Bcast:0.0.0.0 Mask:255.255.0.0
inet6 addr: fe80::42:acff:fe11:3/64 Scope:Link
UP BROADCAST RUNNING MULTICAST MTU:1500 Metric:1
RX packets:18 errors:0 dropped:0 overruns:0 frame:0
TX packets:6 errors:0 dropped:0 overruns:0 carrier:0
collisions:0 txqueuelen:0
RX bytes:2912 (2.9 KB) TX bytes:508 (508.0 B)
lo Link encap:Local Loopback
inet addr:127.0.0.1 Mask:255.0.0.0
inet6 addr: ::1/128 Scope:Host
UP LOOPBACK RUNNING MTU:65536 Metric:1
RX packets:0 errors:0 dropped:0 overruns:0 frame:0
TX packets:0 errors:0 dropped:0 overruns:0 carrier:0
collisions:0 txqueuelen:0
RX bytes:0 (0.0 B) TX bytes:0 (0.0 B)
$ ifconfig //主机的地址
docker0 Link encap:以太网 硬件地址 02:42:df:66:95:96
inet 地址:172.17.0.1 广播:0.0.0.0 掩码:255.255.0.0
inet6 地址: fe80::42:dfff:fe66:9596/64 Scope:Link
UP BROADCAST RUNNING MULTICAST MTU:1500 跃点数:1
接收数据包:14 错误:0 丢弃:0 过载:0 帧数:0
发送数据包:30 错误:0 丢弃:0 过载:0 载波:0
碰撞:0 发送队列长度:0
接收字节:960 (960.0 B) 发送字节:4909 (4.9 KB)
eth0 Link encap:以太网 硬件地址 08:00:27:02:6c:8b
inet 地址:10.43.86.110 广播:10.43.86.255 掩码:255.255.255.0
inet6 地址: fe80::a00:27ff:fe02:6c8b/64 Scope:Link
UP BROADCAST RUNNING MULTICAST MTU:1500 跃点数:1
接收数据包:207853 错误:0 丢弃:0 过载:0 帧数:0
发送数据包:30418 错误:0 丢弃:0 过载:0 载波:0
碰撞:0 发送队列长度:1000
接收字节:14099886 (14.0 MB) 发送字节:2966220 (2.9 MB)
lo Link encap:本地环回
inet 地址:127.0.0.1 掩码:255.0.0.0
inet6 地址: ::1/128 Scope:Host
UP LOOPBACK RUNNING MTU:65536 跃点数:1
接收数据包:154 错误:0 丢弃:0 过载:0 帧数:0
发送数据包:154 错误:0 丢弃:0 过载:0 载波:0
碰撞:0 发送队列长度:0
接收字节:20370 (20.3 KB) 发送字节:20370 (20.3 KB)
veth8e0ee35 Link encap:以太网 硬件地址 5a:34:bf:13:00:f5 /// 这时在主机命名空间里面出现了一个veth,即veth对的一头。另一头在容器里呢,并且被容器改名为eth0了。
inet6 地址: fe80::5834:bfff:fe13:f5/64 Scope:Link
UP BROADCAST RUNNING MULTICAST MTU:1500 跃点数:1
接收数据包:7 错误:0 丢弃:0 过载:0 帧数:0
发送数据包:21 错误:0 丢弃:0 过载:0 载波:0
碰撞:0 发送队列长度:0
接收字节:578 (578.0 B) 发送字节:3516 (3.5 KB)
好了现在可以看到几个结论,在bridge模式下:
- 主机上面会有一个docker0的网桥
- 每个容器都与docker0连通,所以同主机上的容器之间也连通
- 每个主机上容器的地址都是从172.17.0.2开始往后分
如图:
2.1.2 通信
Docker会修改系统的路由规则来控制消息收发,这节就表达这一个意思。
在docker启动之后通过iptables-save查看,可以看到关于docker0的几个规则,他们使得docker0网桥可以收发消息。同一主机中的容器之间就可以通信。
$ sudo iptables-save
# Generated by iptables-save v1.4.21 on Wed Jan 27 10:49:15 2016
*nat
:PREROUTING ACCEPT [10631:1010228]
:INPUT ACCEPT [1268:199346]
:OUTPUT ACCEPT [3169:190771]
:POSTROUTING ACCEPT [3170:190855]
:DOCKER - [0:0]
-A PREROUTING -m addrtype --dst-type LOCAL -j DOCKER
-A OUTPUT ! -d 127.0.0.0/8 -m addrtype --dst-type LOCAL -j DOCKER
-A POSTROUTING -s 172.17.0.0/16 ! -o docker0 -j MASQUERADE
COMMIT
# Completed on Wed Jan 27 10:49:15 2016
# Generated by iptables-save v1.4.21 on Wed Jan 27 10:49:15 2016
*filter
:INPUT ACCEPT [15605:2501897]
:FORWARD ACCEPT [0:0]
:OUTPUT ACCEPT [31535:2534237]
:DOCKER - [0:0]
-A FORWARD -o docker0 -j DOCKER
-A FORWARD -o docker0 -m conntrack --ctstate RELATED,ESTABLISHED -j ACCEPT
-A FORWARD -i docker0 ! -o docker0 -j ACCEPT
-A FORWARD -i docker0 -o docker0 -j ACCEPT
COMMIT
# Completed on Wed Jan 27 10:49:15 2016
如果使用-p
参数将容器端口暴露出来docker run -it -p 2200:22 -d ubuntu
,再通过iptables-save
查看信息,会发现多出了两条规则。他们使得发送到主机地址和2200端口的消息可以送到docker0上,从而进入容器内。这样就使得容器内可以和主机外通信。
$ sudo iptables-save
# Generated by iptables-save v1.4.21 on Wed Jan 27 10:56:17 2016
*nat
:PREROUTING ACCEPT [40:4571]
:INPUT ACCEPT [4:623]
:OUTPUT ACCEPT [9:558]
:POSTROUTING ACCEPT [9:558]
:DOCKER - [0:0]
-A PREROUTING -m addrtype --dst-type LOCAL -j DOCKER
-A OUTPUT ! -d 127.0.0.0/8 -m addrtype --dst-type LOCAL -j DOCKER
-A POSTROUTING -s 172.17.0.0/16 ! -o docker0 -j MASQUERADE
-A POSTROUTING -s 172.17.0.4/32 -d 172.17.0.4/32 -p tcp -m tcp --dport 22 -j MASQUERADE
-A DOCKER ! -i docker0 -p tcp -m tcp --dport 2200 -j DNAT --to-destination 172.17.0.4:22
COMMIT
# Completed on Wed Jan 27 10:56:17 2016
# Generated by iptables-save v1.4.21 on Wed Jan 27 10:56:17 2016
*filter
:INPUT ACCEPT [49:8589]
:FORWARD ACCEPT [0:0]
:OUTPUT ACCEPT [47:6227]
:DOCKER - [0:0]
-A FORWARD -o docker0 -j DOCKER
-A FORWARD -o docker0 -m conntrack --ctstate RELATED,ESTABLISHED -j ACCEPT
-A FORWARD -i docker0 ! -o docker0 -j ACCEPT
-A FORWARD -i docker0 -o docker0 -j ACCEPT
-A DOCKER -d 172.17.0.4/32 ! -i docker0 -o docker0 -p tcp -m tcp --dport 22 -j ACCEPT
COMMIT
# Completed on Wed Jan 27 10:56:17 2016
事实上,kubernetes
的service-Pod
之间的寻址也是通过挂载路由规则实现的。Flannel
也是通过路由规则使得docker0
上的消息可以发到flannel0
,进而实现docker集群中Node结点之间的互通。因本文并不是介绍这些开源工具的原理,所以不在路由表这上面做过多展开,我们只需知道kubernetes、flannel等都是通过修改路由规则来解决他们的问题的,这样在使用他们的时候不至于总是思考“咋通的呢”,“他背后是什么东西实现的呢”。
3 模式问题
3.1 Bridge模式
Bridge模式可以解决同主机内容器的通信,同时可以看到几个问题:
docker容器之间想要连通需要在同一台主机上,跨主机无法通信
容器的ip地址都docker分配的,一般都从172.17.0.2开始,不同主机上的容器地址有可能是相同的。Docker集群要解决这个问题,不能让他们相同。
在解决这些问题之前,我们先把另外docker的三个模式简单介绍一下。后面介绍的flannel
是解决这些问题的方案之一。
3.2 Host模式
如果启动容器的时候使用host模式,那么这个容器将不会获得一个独立的Network Namespace,而是和宿主机共用一个Network Namespace。容器将不会虚拟出自己的网卡,配置自己的IP等,而是使用宿主机的IP和端口。
当我们在容器中执行任何类似ifconfig
命令查看网络环境时,看到的都是宿主机上的信息。而外界访问容器中的应用,则直接使用物理机器地址即可,就如直接跑在宿主机中一样。但是,容器的其他方面,如文件系统、进程列表等还是和宿主机隔离的。
3.3 Container模式
这个模式指定新创建的容器和已经存在的一个容器共享一个Network Namespace,而不是和宿主机共享。新创建的容器不会创建自己的网卡,配置自己的IP,而是和一个指定的容器共享IP、端口范围等。同样,两个容器除了网络方面,其他的如文件系统、进程列表等还是隔离的。
kubernetes中一个Pod内的容器共享网络,就是在pod内有容器使用了这种网络模式。
3.4 None模式
在这种模式下,Docker容器拥有自己的Network Namespace,但是,并不为Docker容器进行任何网络配置。也就是说,这个Docker容器没有网卡、IP、路由等信息。需要我们自己为Docker容器添加网卡、配置IP等。
Flannel介绍
Flannel是CoreOS团队针对Kubernetes设计的一个网络规划服务,简单来说,它的功能是让集群中的不同节点主机创建的Docker容器都具有全集群唯一的虚拟IP地址。并且连通主机节点的网络。
但在默认的Docker配置中,每个节点上的Docker服务会分别负责所在节点容器的IP分配。这样导致的一个问题是,不同节点上容器可能获得相同的内外IP地址。Flannel的设计目的就是为集群中的所有节点重新规划IP地址的使用规则,从而使得不同节点上的容器能够获得同属一个内网
且不重复的
IP地址,并让属于不同节点上的容器能够直接通过内网IP通信。 默认的节点间数据通信方式是UDP转发。
下图来自网络:
简单的说flannel做了三件事情:
数据从源容器中发出后,经由所在主机的docker0虚拟网卡转发到flannel0虚拟网卡,这是个P2P的虚拟网卡,flanneld服务监听在网卡的另外一端。Flannel也是通过修改Node的路由表实现这个效果的。
源主机的flanneld服务将原本的数据内容UDP封装后根据自己的路由表投递给目的节点的flanneld服务,数据到达以后被解包,然后直接进入目的节点的flannel0虚拟网卡,然后被转发到目的主机的docker0虚拟网卡,最后就像本机容器通信一样由docker0路由到达目标容器。
使每个结点上的容器分配的地址不冲突。Flannel通过Etcd分配了每个节点可用的IP地址段后,再修改Docker的启动参数。
--bip=X.X.X.X/X
这个参数,它限制了所在节点容器获得的IP范围。
Flannel安装和使用
1.1 安装flannel
解压文件,tar -zxvf xxx.tar
Flannel路径在:
在系统中增加两个文件:
在 /etc/init/ 增加flanneld.conf文件,内容见最下面。
在 /etc/default/ 增加flanneld文件,内容见最下面。
1.2 启动ETCD:
前面说到了,flannel需要通过ETCD管理每个结点分配的地址段。所以先启动etcd。当然在kubernetes集群系统里面,kubernetes也要求启动etcd。这里提一下,需要先启动flannel之后再通过kubectl启动容器,因为需要通过flannel限制docker容器的ip地址段。看完后面就理解了。
./etcd--listen-client-urls=https://0.0.0.0:4001 --listen-peer-urls=https://0.0.0.0:7001&
设置本集群的容器ip地址段。
etcdctl rm /coreos.com/network/ --recursive
./etcdctlmk /coreos.com/network/config '{"Network":"172.200.0.0/16"}'
设置完可以查看一下:
etcdctl get /coreos.com/network/config
{"Network":"172.200.0.0/16"}
Network是本集群docker容器可分配的代码段,由flannel管理。不能和机器实际物理结点ip冲突,最好搞个和谁都不冲突的,随便写。
1.3 启动flannel
执行:ip link set dev docker0 down
执行:brctl delbr docker0
进入flannel/bin 路径,
sudo./flanneld -etcd-endpoints=https://ETCD所在机器的IP地址:4001-iface=eth0&
$ sudo ./flanneld -etcd-endpoints=https://10.43.86.110:4001
[sudo] password for het:
I0120 21:31:00.282318 30969 main.go:275] Installing signal handlers
I0120 21:31:00.788024 30969 main.go:130] Determining IP address of default interface
I0120 21:31:00.925879 30969 main.go:188] Using 10.43.86.110 as external interface
I0120 21:31:01.025180 30969 main.go:189] Using 10.43.86.110 as external endpoint
I0120 21:31:01.331261 30969 etcd.go:204] Picking subnet in range 172.200.1.0 ... 172.200.255.0
I0120 21:31:01.418648 30969 etcd.go:84] Subnet lease acquired: 172.200.59.0/24
I0120 21:31:02.359643 30969 udp.go:222] Watching for new subnet leases
Flannel启动之后会创建一个文件 subnet.env
,可以打开看一下
$ vi flannel/subnet.env
FLANNEL_NETWORK=172.200.0.0/16 ////这个就是在etcd里面设置的地址段
FLANNEL_SUBNET=172.200.59.1/24 /// 这个就是为本结点分配的容器地址段
FLANNEL_MTU=1472
FLANNEL_IPMASQ=false
下面让flannel产生的地址段生效,控制docker容器的ip地址分配。
执行:source /run/flannel/subnet.env
执行:sudo rm /var/run/docker.pid
执行:sudo docker -d --bip=${FLANNEL_SUBNET}--mtu=${FLANNEL_MTU} &
可以看到上面的操作就是把flannel启动起来,把他的地址段提出来,然后设置一下docker的启动参数。
好了,下面可以测试一下。
测试:执行docker run -it ubuntu /bin/bash
ifconfig
查看容器被分配的IP。非flannel时docker的ip是172.17.0.X,如果上面的成功,此时分配的IP应该为172.200.59.x
。
至此一个docker集群的网络就打通了,在另一个主机上也是按这样操作,注意启动flannel时要指定到同一个etcd。
附录 flanneld.conf
description "Flannel service"
author "@chenxingyu"
start on (net-device-up
and local-filesystems
and runlevel [2345])
stop on runlevel [016]
respawn
respawn limit 10 5
pre-start script
FLANNEL=/usr/bin/$UPSTART_JOB
if [ -f /etc/default/$UPSTART_JOB ]; then
. /etc/default/$UPSTART_JOB
fi
if [ -f $FLANNEL ]; then
exit 0
fi
exit 22
end script
script
# modify these in /etc/default/$UPSTART_JOB (/etc/default/docker)
FLANNEL=/usr/bin/$UPSTART_JOB
FLANNEL_OPTS=""
if [ -f /etc/default/$UPSTART_JOB ]; then
. /etc/default/$UPSTART_JOB
fi
exec "$FLANNEL" $FLANNEL_OPTS
end script