思路是利用docker部署的时候,在新的docker没有启动完成之前,一直保留老的docker,不切换流量到新docker。

以下配置都在docker到yaml文件中配置的。

首先配置Deployment:

spec:
  replicas: 1
  minReadySeconds: 60 #容器接受流量延缓时间:单位为秒,默认为0。如果没有设置的话,k8s会认为容器启动成功后就可以用了。设置该值可以延缓容器流量切分
  strategy:
    type: RollingUpdate
    rollingUpdate:
      maxSurge: 2 #最多Pod数量:为数字类型/百分比。如果 maxSurge 设置为1,replicas 设置为10,则在发布过程中pod数量最多为10 + 1个(多出来的为旧版本pod,平滑期不可用状态)。maxUnavailable 为 0 时,该值也不能设置为0
      maxUnavailable: 0 #升级中最多不可用pod的数量:为数字类型/百分比。当 maxSurge 为 0 时,该值也不能设置为0

发现还是会有十几秒无法访问网站,抱502。

然后又补充了检测nginx状态:

还是在Deployment配置:

readinessProbe:
  httpGet:
    path: /nginx_status # Kubernetes 会向容器的 80 端口发送 HTTP GET 请求,访问 /nginx_status 路径。
    port: 80 # 指定要访问的端口号为 80。
  initialDelaySeconds: 15 # 容器启动后,Kubernetes 会等待 15 秒再开始执行
  periodSeconds: 30 # Kubernetes 每隔 30 秒执行一次 readinessProbe。
  failureThreshold: 3 # 如果 readinessProbe 连续失败 3 次,Kubernetes 会认为容器不健康,并停止将流量路由到该容器。

然后配置nginx:

# 健康检查
location /nginx_status {
    stub_status on;
    access_log off;
    allow 127.0.0.1;
}

达到了预期,具体效果都在注释里了。

由于docker的yaml配置通过空格确定层级的,所以有可能曾经错误,所以下面放出来所有的Deployment用来对比:

apiVersion: apps/v1
kind: Deployment
metadata:
  namespace: $DOCKERHUB_NAMESPACE
  name: $APP_NAME
spec:
  replicas: 1
  minReadySeconds: 60 #容器接受流量延缓时间:单位为秒,默认为0。如果没有设置的话,k8s会认为容器启动成功后就可以用了。设置该值可以延缓容器流量切分
  strategy:
    type: RollingUpdate
    rollingUpdate:
      maxSurge: 2 #最多Pod数量:为数字类型/百分比。如果 maxSurge 设置为1,replicas 设置为10,则在发布过程中pod数量最多为10 + 1个(多出来的为旧版本pod,平滑期不可用状态)。maxUnavailable 为 0 时,该值也不能设置为0
      maxUnavailable: 0 #升级中最多不可用pod的数量:为数字类型/百分比。当 maxSurge 为 0 时,该值也不能设置为0
  selector:
    matchLabels:
      #app: $APP_NAME
      app.kubernetes.io/name: $APP_NAME
  template:
    metadata:
      labels:
        app: $APP_NAME
        app.kubernetes.io/name: $APP_NAME
    spec:
      containers:
        - env:
            - name: ENV_PROFILE
              value: $ENV_PROFILE
          image: $DOCKER_IMAGE
          imagePullPolicy: Always
          name: $APP_NAME
          readinessProbe:
            httpGet:
              path: /nginx_status # Kubernetes 会向容器的 80 端口发送 HTTP GET 请求,访问 /nginx_status 路径。
              port: 80 # 指定要访问的端口号为 80。
            initialDelaySeconds: 15 # 容器启动后,Kubernetes 会等待 15 秒再开始执行
            periodSeconds: 30 # Kubernetes 每隔 30 秒执行一次 readinessProbe。
            failureThreshold: 3 # 如果 readinessProbe 连续失败 3 次,Kubernetes 会认为容器不健康,并停止将流量路由到该容器。
          ports:
            - containerPort: 80
          resources:
            limits:
              cpu: 300m
              memory: 512Mi
            requests:
              cpu: 100m
              memory: 512Mi
      restartPolicy: Always

如果不需要检查具体的 HTTP 响应,可以使用 tcpSocket 探针来检查 Nginx 的端口是否打开。

          readinessProbe:
            tcpSocket:
              port: 80
            initialDelaySeconds: 15
            periodSeconds: 30
            failureThreshold: 3

经多次测试,还是会出现页面502,随机有几个资源文件502导致,所以以上探针方案并不能完全解决平滑发版,还需继续研究。