k8s 集群又出现 dns 解析问题

悬赏园豆：30 [待解决问题]

k8s 集群没有接入负载，却在部署时有一个节点因为 dns 解析问题而无法启动 pod 。

执行 kubectl -n kube-system get ev 命令显示下面的错误信息：

LAST SEEN   TYPE      REASON      OBJECT                  MESSAGE
4m2s        Warning   Unhealthy   pod/calico-node-znpnz   (combined from similar events): Readiness probe failed: calico/node is not ready: BIRD is not ready: BGP not established with 10.0.1.81,10.0.1.82,10.0.1.252,10.0.1.19,10.0.1.202020-01-04 05:43:33.459 [INFO][629] health.go 156: Number of node(s) with BGP peering established = 0

请问如何解决这个问题？

k8s

问题补充：

重启出问题的 node 后恢复正常，对应的 pod calico-node-znpnz 的 READY 值从 0/1 变为 1/1

博客园团队

| 大侠五级 | 园豆：5795
提问于：2020-01-04 13:53

< >

所有回答(3)

参考下这个：https://github.com/projectcalico/calico/issues/2561
不过更关键的是，你们k8s集群部署时部署步骤和关键参数是否都记录下来了。k8s集群很多的问题都是配置问题，尤其是网络这块。排查的时候要对照着排查。

雪雁 | 园豆：50 (初学一级) | 2020-01-04 14:42

现在这个出问题的集群是重新创建的高可用集群，部署过程进行了很多记录

支持(0) 反对(0) 博客园团队 | 园豆：5795 (大侠五级) | 2020-01-04 16:07

首先我对bgp不熟，就只从k8s的角度分析一下
calico网络有两种模式，隧道模式的IPIP 纯三层的BGP，默认情况下应该是IPIP，会有一个node to node 的 mesh
event中有Unhealthy 的信息以及0/1 信息可以知道calico的健康检测没有通过，
calico的yaml中有这一段健康检测的声明

          readinessProbe:
            exec:
              command:
              - /bin/calico-node
              - -bird-ready
              - -felix-ready
            periodSeconds: 10

具体要看一下bird的报错
另外刚开始建议用简单的flannel
这个文章可以看看
https://www.cnblogs.com/goldsunshine/p/10701242.html

too-bug | 园豆：202 (菜鸟二级) | 2020-01-04 15:55

大翻船时的 k8s 集群用的就是 flannel 网络

支持(1) 反对(0) 博客园团队 | 园豆：5795 (大侠五级) | 2020-01-04 16:05

可用信息太少,可以贴出kubectl -n kube-system logs calico-node-znpnz日志吗
通过Number of node(s) with BGP peering established = 0搜索
参考了这个：calico/node is not ready: BIRD is not ready: BGP not established (Calico 3.6 / k8s 1.14.1)
其中提问者改变网段后问题解决了
https://github.com/projectcalico/calico/issues/2561#issuecomment-485648104
有其他人通过改变绑定的网络接口解决问题
https://github.com/projectcalico/calico/issues/2561#issuecomment-531537534

 # Specify interface
            - name: IP_AUTODETECTION_METHOD
              value: "interface=eth1"

总结一下,应该是calico在多网络接口时自动检测到错误的网络接口,导致网络无法连通

kebyn | 园豆：208 (菜鸟二级) | 2020-01-06 16:39

您好，后来重启节点后恢复了，等下次出现才能拿到日志。
我们用的是阿里云服务器，就一个网络接口 eth0。

支持(0) 反对(0) 博客园团队 | 园豆：5795 (大侠五级) | 2020-01-06 20:51

@博客园团队: calico网段默认是192.168.0.0/16和阿里云的内网网段是不是冲突了

支持(0) 反对(0) kebyn | 园豆：208 (菜鸟二级) | 2020-01-08 19:20

清除回答草稿

您需要登录以后才能回答，未注册用户请先注册。