Swarm容器集群管理(超详细)

时间:2023-03-09 06:41:50
Swarm容器集群管理(超详细)

一、Swarm介绍

Swarm是Docker公司自研发的容器集群管理系统, Swarm在早期是作为一个独立服务存在, 在Docker Engine v1.12中集成了Swarm的集群管理和编排功能。可以通过初始化Swarm或加入现有Swarm来启用Docker引擎的Swarm模式。

Docker Engine CLI和API包括了管理Swarm节点命令,比如添加、删除节点,以及在Swarm中部署和编排服务。也增加了服务栈(Stack)、服务(Service)、任务(Task)概念。

二、Swarm的亮点

参考链接(https://docs.docker.com/engine/swarm/
1. Docker Engine集成集群管理
使用Docker Engine CLI 创建一个Docker Engine的Swarm模式,在集群中部署应用程序服务。
2. 去中心化设计
Swarm角色分为Manager和Worker节点, Manager节点故障不影响应用使用。
3. 扩容缩容
可以声明每个服务运行的容器数量,通过添加或删除容器数自动调整期望的状态。
4. 期望状态协调
Swarm Manager节点不断监视集群状态,并调整当前状态与期望状态之间的差异。
5. 多主机网络
可以为服务指定overlay网络。当初始化或更新应用程序时, Swarm manager会自动为overlay网络上的容器分配IP地址。
6. 服务发现
Swarm manager节点为集群中的每个服务分配唯一的DNS记录和负载均衡VIP。可以通过Swarm内置的DNS服务器查询集群中每个运行的容器。
7. 负载均衡
实现服务副本负载均衡,提供入口访问。
8. 安全传输
Swarm中的每个节点使用TLS相互验证和加密, 确保安全的其他节点通信。
9. 滚动更新
升级时,逐步将应用服务更新到节点,如果出现问题,可以将任务回滚到先前版本。

三、swarm关键概念

参考链接:https://docs.docker.com/engine/swarm/key-concepts/

1、什么是swarm?

集群管理和任务编排功能已经集成到了Docker引擎中,通过使用swarmkit。swarmkit是一个独立的,专门用于Docker容器编排的项目,可以直接在Docker上使用。

Swarm集群是由多个运行swarm模式的Docker主机组成,关键的是,Docker默认集成了swarm mode。swarm集群中有manager(管理成员关系和选举)、worker(运行swarm service)。

一个Docker主机可以是manager,也可以是worker角色,当然,也可以既是manager,同时也是worker。

当你创建一个service时,你定义了它的理想状态(副本数、网络、存储资源、对外暴露的端口等)。Docker会维持它的状态,例如,如果一个worker node不可用了,Docker会调度不可用node的task到其他nodes上。

运行在容器中的一个task,是swarm service的一部分,且通过swarm manager进行管理和调度,和独立的容器是截然不同的。

swarm service相比单容器的一个最大优势就是,你能够修改一个服务的配置:包括网络、数据卷,不需要手工重启服务。Docker将会更新配置,把过期配置的task停掉,重新创建一个新配置的容器。

当然,也许你会觉得docker compose也能做swarm类似的事情,某些场景下是可以。但是,swarm相比docker compose,功能更加丰富,比如说自动扩容、缩容,分配至task到不同的nodes等。

2、nodes

一个node是Swarm集群中的一个Docker引擎实例。你也可以认为这就是一个docker节点。你可以运行一个或多个节点在单台物理机或云服务器上,但是生产环境上,典型的部署方式是:Docker节点交叉分布式部署在多台物理机或云主机上。

通过swarm部署一个应用,你向manager节点提交一个service,然后manager节点分发工作(task)给worker node。

manager节点同时也会容器编排和集群管理功能,它会选举出一个leader来指挥编排任务。worker nodes接受和执行从manager分发过来的task。一般地,manager节点同时也是worker节点,但是,你也可以将manager节点配置成只进行管理的功能。

Agent则运行在每个worker节点上,时刻等待着接受任务。worker node会上报manager node,分配给他的任务当前状态,这样manager node才能维持每个worker的工作状态。

3、services和tasks

service就是在manager或woker节点上定义的tasks。service是swarm系统最核心的架构,同时也是和swarm最主要的交互者。当你创建一个service,你指定容器镜像以及在容器内部运行的命令。

在副本集模式下,swarm manager将会基于你需要扩容的需求,把task分发到各个节点。对于全局service,swarm会在每个可用节点上运行一个task。

task携带Docker引擎和一组命令让其运行在容器中。它是swarm的原子调度单元。manager节点在扩容的时候回交叉分配task到各个节点上,一旦一个task分配到一个node,它就不能移动到其他node。

4、负载均衡

swarm manager使用 ingress负载均衡来暴露你需要让外部访问的服务。swarm manager能够自动的分配一个外部端口到service,当然,你也能够配置一个外部端口,你可以指定任意没有使用的port,如果你不指定端口,那么swarm manager会给service指定30000-32767之间任意一个端口。

swarn模式有一个内部的DNS组件,它能够自动分发每个服务在swarm里面。swarm manager使用内部负载均衡机制来接受集群中节点的请求,基于DNS名字解析来实现。

四、Swarm架构图

Swarm容器集群管理(超详细)

Swarm manager:

1、API:接受命令,创建一个service(API输入)

2、orchestrator:service对象创建的task进行编排工作(编排)

3、allocater:为各个task分配IP地址(分配IP)

4、dispatcher:将task分发到nodes(分发任务)

5、scheduler:安排一个worker运行task(运行任务)

worker node

1、连接到分发器接受指定的task

2、将task指派到对应的worker节点

例子:

Swarm容器集群管理(超详细)

swarm manager创建一个3个nginx副本集的service,他会将task分配到对应的node。

五、swarm集群部署

安装需求

1、主机安装了docker,Docker Engine 1.12+

2、关闭selinux、关闭防火墙(或者按照下面需要打开的端口开放防火墙)

3、协议端口开放

  • TCP port 2377 集群管理通讯
  • TCP and UDP port 7946 节点之间通讯
  • UDP port 4789 overlay网络流量

机器分布

角色 IP Docker版本
manager 10.11.97.71 18.09.7
worker01 10.11.97.181 18.09.7
worker02 10.11.97.187 18.09.7

部署swarm

manager节点:

docker swarm init --advertise-addr 10.11.97.71

  

日志查看:

[root@localhost ~]# docker swarm init --advertise-addr 10.11.97.71
Swarm initialized: current node (nnkbd7e2emx24ymnzyvxv7h2b) is now a manager. To add a worker to this swarm, run the following command: docker swarm join --token SWMTKN-1-4y22cau9ejhrppdlf2g5y7dn6ibltq67ccvoiw2xf3yoj5i5ii-69yg43tece4d5sbwl1a1ftmu9 10.11.97.71:2377 To add a manager to this swarm, run 'docker swarm join-token manager' and follow the instructions. [root@localhost ~]#

  

worker01节点加入集群:

[root@worker01 compose_nginx_tomcat]# docker swarm join --token SWMTKN-1-4y22cau9ejhrppdlf2g5y7dn6ibltq67ccvoiw2xf3yoj5i5ii-69yg43tece4d5sbwl1a1ftmu9 10.11.97.71:2377
This node joined a swarm as a worker.
[root@localhost compose_nginx_tomcat]#

  

worker02节点加入集群:

[root@worker02 ~]# docker swarm join --token SWMTKN-1-4y22cau9ejhrppdlf2g5y7dn6ibltq67ccvoiw2xf3yoj5i5ii-69yg43tece4d5sbwl1a1ftmu9 10.11.97.71:2377
This node joined a swarm as a worker.
[root@localhost ~]#

  

查看node状态:

Swarm容器集群管理(超详细)

部署一个服务

docker service create --replicas 1 --name helloworld alpine ping docker.com

Swarm容器集群管理(超详细)

--replicas 副本集数

--name  服务名称

查看服务

Swarm容器集群管理(超详细)

当前服务运行在manager上。

 

Swarm容器集群管理(超详细)

  

六、swarm集群服务管理

1、创建服务

docker service create --replicas 1 --name web01 nginx

Swarm容器集群管理(超详细)

2、显示服务详细信息

docker service inspect --pretty web01# 易于阅读显示

Swarm容器集群管理(超详细)

docker service inspect web01# json格式返回

Swarm容器集群管理(超详细)

3、扩容和缩容

docker service scale web01=3

Swarm容器集群管理(超详细)

4、查看服务任务

docker service ls(查看所有service)

Swarm容器集群管理(超详细)

docker service ps web01(查看web01)

Swarm容器集群管理(超详细)

每个node上分布了1个容器。

docker service ps -f 'desired-state=running' web01(查看运行状态的service)

Swarm容器集群管理(超详细)

5、滚动更新服务

docker service create \
--replicas 3 \
--name redis \
--update-delay 10s \
redis:3.0.6

docker service update --image redis:3.0.7 redis

6、创建服务时设定更新策略

docker service create \
--name my_web
--replicas 10 \
--update-delay 10s \
--update-parallelism 2 \
--update-failure-action continue \
nginx:1.12

7、创建服务时设定回滚策略

docker service create \
--name my_web \
--replicas 10 \
--rollback-parallelism 2 \
--rollback-monitor 20s \
--rollback-max-failure-ratio .2 \
nginx:1.12

8、服务更新

docker service update --image nginx:1.13 my_web

9、手动回滚

docker service update --rollback my_web

10、角色切换

升级前:

Swarm容器集群管理(超详细)

升级:

停掉manager

systemctl stop docker

将worker02升级

docker node promote worker02

Swarm容器集群管理(超详细)

升级后:

Swarm容器集群管理(超详细)

七、swarm集群数据管理

1、volume方式管理数据

volume模式:在宿主机上创建一个volume,默认目录为(/var/lib/docker/volume/your_custom_volume/_data),然后把容器的某个目录映射到宿主机的volume上,即使容器挂了,数据还会依然保留在宿主机的volume上。

docker service create --replicas 1--mount type=volume,src=nginx^Cata,dst=/usr/share/nginx/html --name www_web01 nginx:1.12

  

Swarm容器集群管理(超详细)

查看服务

docker service inspect www_web01

服务ID

服务版本

服务创建时间

服务更新时间

服务详细配置

  服务名称

  服务标签

  服务的容器配置

    镜像名称

    挂载点

    资源限制

    重启策略

    更新配置

    回滚配置

    挂载点配置

  

[
{
"ID": "7ge7vfprynybyvz9otwomzumv",
"Version": {
"Index": 313
},
"CreatedAt": "2019-07-20T04:16:41.677166218Z",
"UpdatedAt": "2019-07-20T04:16:41.677166218Z",
"Spec": {
"Name": "www_web01",
"Labels": {},
"TaskTemplate": {
"ContainerSpec": {
"Image": "nginx:1.12@sha256:72daaf46f11cc753c4eab981cbf869919bd1fee3d2170a2adeac12400f494728",
"Init": false,
"Mounts": [
{
"Type": "volume",
"Source": "nginx_data",
"Target": "/usr/share/nginx/html"
}
],
"StopGracePeriod": 10000000000,
"DNSConfig": {},
"Isolation": "default"
},
"Resources": {
"Limits": {},
"Reservations": {}
},
"RestartPolicy": {
"Condition": "any",
"Delay": 5000000000,
"MaxAttempts": 0
},
"Placement": {
"Platforms": [
{
"Architecture": "amd64",
"OS": "linux"
},
{
"OS": "linux"
},
{
"Architecture": "arm64",
"OS": "linux"
},
{
"Architecture": "386",
"OS": "linux"
},
{
"Architecture": "ppc64le",
"OS": "linux"
},
{
"Architecture": "s390x",
"OS": "linux"
}
]
},
"ForceUpdate": 0,
"Runtime": "container"
},
"Mode": {
"Replicated": {
"Replicas": 1
}
},
"UpdateConfig": {
"Parallelism": 1,
"FailureAction": "pause",
"Monitor": 5000000000,
"MaxFailureRatio": 0,
"Order": "stop-first"
},
"RollbackConfig": {
"Parallelism": 1,
"FailureAction": "pause",
"Monitor": 5000000000,
"MaxFailureRatio": 0,
"Order": "stop-first"
},
"EndpointSpec": {
"Mode": "vip"
}
},
"Endpoint": {
"Spec": {}
}
}
]

  

查看数据卷

Swarm容器集群管理(超详细)

Swarm容器集群管理(超详细)

因为我硬盘的数据盘在/data,所以我这里已经把docker的Root Dir设置成/data/docker/,可以看到容器里面的nginx数据目录已经挂在到宿主机的nginx_data了。

2、bind mount方式管理数据

bind mount模式:将宿主机某个目录映射到docker容器,很适合于网站,同时把宿主机的这个目录作为git版本目录,每次update代码的时候,容器就会更新。

创建数据目录

在mananger、worker01、worker02上创建web网站目录:

mkdir -p /data/wwwroot

创建服务

docker service create --replicas 1--mount type=bind,src=/data/wwwroot,dst=/usr/share/nginx/html --name www_web02 nginx:1.12

Swarm容器集群管理(超详细)

查看服务

运行在worker02

Swarm容器集群管理(超详细)

测试宿主机的数据盘和容器是映射关系:

Swarm容器集群管理(超详细)

进入容器查看内容:

Swarm容器集群管理(超详细)

可以看到我们在宿主机上创建的index.html已经挂在到容器上了!

3、NFS方式管理数据

前面两种方式都是单机docker上数据共享方式,要是在集群中,这个就不适用了,我们必须使用共享存储或网络存储了。这里我们使用NFS来测试。

安装NFS服务

我们使用第三台(worker02作为NFS服务提供者)

yum install nfs-utils -y

并且在nfs目录放入网站数据内容:

[root@worker02 container_data]# echo 'hello nfs' >index.html

其他两个节点(worker01和manager均需要安装nfs客户端)

创建服务

docker service create \
--mount 'type=volume,src=nfs-vol,dst=/usr/share/nginx/html, \
volume-driver=local,volume-opt=type=nfs,\
volume-opt=device=:/data/container_data,"volume-opt=o=addr=10.11.97.187,vers=4,soft,timeo=180,bg,tcp,rw"' \
--name www_web03_nfs nginx:1.12

swarm支持挂在NFS卷。

Swarm容器集群管理(超详细)

可以查看到nfs已经挂在到manager节点了,且nfs里面的内容也在。

Swarm容器集群管理(超详细)

进入容器查看:

Swarm容器集群管理(超详细)

八、swarm集群发布

架构图

Swarm容器集群管理(超详细)

服务发现: Swarm模式内置DNS组件,自动为每个服务分配DNS记录,然后服务的DNS名称在集群内的服务直接分发请求。
负载均衡:在Swarm集群中创建服务时, Ingress网络会自动为其分配一个虚拟IP(VIP),在DNS解析时返回VIP,流入该VIP的流量将自动发送(IPVS)该服务的所以健康任
务(容器)。

在每个节点上创建服务,使用ingress暴露publish port:

docker service create --replicas=3 --name web01 -p 88:80 nginx:1.12

Swarm容器集群管理(超详细)

可以看到每个node上各分部了一个容器:

Swarm容器集群管理(超详细)

这时你直接访问:http://10.11.97.71:88就可以访问网站了。

注意:

如果你关掉某个节点上web01的服务,swarm会再次启动一个服务,以达到原来task的个数。

在真实环境中,我们可以在swarm集群中的每个节点启动指定个数的tasks,然后在前端使用负载均衡设备,比如HA或Nginx都行,直接通过负载均衡的方式做到高可用。

查看service

docker service inspect web01

[
{
"ID": "ii7ggbrqfsl417oqs9xgr877q", #ID
"Version": { #版本
"Index": 753
},
"CreatedAt": "2019-07-20T15:12:36.035445496Z", #创建时间
"UpdatedAt": "2019-07-20T15:12:36.037336323Z", #更新时间
"Spec": { #详细配置
"Name": "web01", #服务名称
"Labels": {},
"TaskTemplate": {
"ContainerSpec": { #容器配置
"Image": "nginx:1.12@sha256:72daaf46f11cc753c4eab981cbf869919bd1fee3d2170a2adeac12400f494728",
"Init": false,
"StopGracePeriod": 10000000000,
"DNSConfig": {},
"Isolation": "default"
},
"Resources": { #资源限制
"Limits": {},
"Reservations": {}
},
"RestartPolicy": { #重启策略
"Condition": "any",
"Delay": 5000000000,
"MaxAttempts": 0
},
"Placement": { #平台相关
"Platforms": [
{
"Architecture": "amd64",
"OS": "linux"
},
{
"OS": "linux"
},
{
"Architecture": "arm64",
"OS": "linux"
},
{
"Architecture": "386",
"OS": "linux"
},
{
"Architecture": "ppc64le",
"OS": "linux"
},
{
"Architecture": "s390x",
"OS": "linux"
}
]
},
"ForceUpdate": 0,
"Runtime": "container"
},
"Mode": { #模式
"Replicated": {
"Replicas": 3
}
},
"UpdateConfig": { #更新配置
"Parallelism": 1,
"FailureAction": "pause",
"Monitor": 5000000000,
"MaxFailureRatio": 0,
"Order": "stop-first"
},
"RollbackConfig": { #回滚配置
"Parallelism": 1,
"FailureAction": "pause",
"Monitor": 5000000000,
"MaxFailureRatio": 0,
"Order": "stop-first"
},
"EndpointSpec": { #终端配置
"Mode": "vip",
"Ports": [
{
"Protocol": "tcp",
"TargetPort": 80,
"PublishedPort": 88,
"PublishMode": "ingress"
}
]
}
},
"Endpoint": { #终端,VIP模式,对外暴露88端口,ingress模式
"Spec": {
"Mode": "vip",
"Ports": [
{
"Protocol": "tcp",
"TargetPort": 80,
"PublishedPort": 88,
"PublishMode": "ingress"
}
]
},
"Ports": [
{
"Protocol": "tcp",
"TargetPort": 80,
"PublishedPort": 88,
"PublishMode": "ingress"
}
],
"VirtualIPs": [ #虚拟出了一个网段
{
"NetworkID": "gd7sc5a8ke68zxzf9s7kz5mey",
"Addr": "10.255.0.7/16"
}
]
}
}
]

  

查看network

[root@manager ~]# docker network ls
NETWORK ID NAME DRIVER SCOPE
13e5011b8fa7 bridge bridge local
1330304716df docker_gwbridge bridge local
95f6edd3f2ec host host local
gd7sc5a8ke68 ingress overlay swarm
57781759f937 none null local

  

查看ingress网络

[root@manager ~]# docker network inspect gd7
[
{
"Name": "ingress",
"Id": "gd7sc5a8ke68zxzf9s7kz5mey",
"Created": "2019-07-18T17:17:43.808865817+08:00",
"Scope": "swarm",
"Driver": "overlay",
"EnableIPv6": false,
"IPAM": {
"Driver": "default",
"Options": null,
"Config": [
{
"Subnet": "10.255.0.0/16",
"Gateway": "10.255.0.1"
}
]
},
"Internal": false,
"Attachable": false,
"Ingress": true,
"ConfigFrom": {
"Network": ""
},
"ConfigOnly": false,
"Containers": {
"b4f5c5977de9248e4834f91f6a0bd54c438ad4c051cc9fef3537a726f2f64b49": {
"Name": "web01.1.p9mhq9xrb35bwscrv23pgmimy",
"EndpointID": "28b1e5fc0bef0e2b6ec812870c03962cf534e3f9f65646f507b6462da0a7eb58",
"MacAddress": "02:42:0a:ff:00:0b",
"IPv4Address": "10.255.0.11/16",
"IPv6Address": ""
},
"e4d6ace7511ac6ee24c6a3c3170749c8f08cbced6e86c2e4e1524e573db31418": {
"Name": "web01.3.j1ev4hq7mjwyyy59e0l0g2qjy",
"EndpointID": "6f9f9d2a61a3bb2424f7354dfd5a8e3e421734529fe626b4e263d2093078b285",
"MacAddress": "02:42:0a:ff:00:0a",
"IPv4Address": "10.255.0.10/16",
"IPv6Address": ""
},
"ingress-sbox": {
"Name": "ingress-endpoint",
"EndpointID": "2433360215c02637627f3f2cb8bada006b1837fa4aa551d1dffa6f2efe93987b",
"MacAddress": "02:42:0a:ff:00:02",
"IPv4Address": "10.255.0.2/16",
"IPv6Address": ""
}
},
"Options": {
"com.docker.network.driver.overlay.vxlanid_list": "4096"
},
"Labels": {},
"Peers": [
{
"Name": "5751b4f046eb",
"IP": "10.11.97.71"
},
{
"Name": "e3f5cc62948d",
"IP": "10.11.97.187"
},
{
"Name": "e9531b469fd9",
"IP": "10.11.97.181"
}
]
}
]

  可以看出ingress,模拟出了一个vxlan,驱动类型为overlay,网段为:10.255.0.0/16,网关为10.255.0.1,vxlan有4096个接口。

九、swarm集群高可用架构实现

HAPorxy实现高可用

Swarm容器集群管理(超详细)

Nginx反向代理实现高可用

Swarm容器集群管理(超详细)

十、Swarm配置文件管理

1、 生成一个基本的Nginx配置文件
# cat site.conf

server {

  listen 80;

  server_name localhost;

location / {
root /usr/share/nginx/html;
index index.html index.htm;
}
}

2、 将site.conf保存到docker配置中

# docker config create site.conf site.conf
# docker config ls


3、 创建一个Nginx并应用这个配置
# docker service create \
--name nginx \
--config source=site.conf,target=/etc/nginx/conf.d/site.conf \
--publish 8080:80 \
nginx