系统:centos7.9
k8s版本:1.20.12 (三主三从)
kube-prometheus版本:release-0.7
官网链接:https://github.com/prometheus-operator/kube-prometheus/tree/release-0.7
按照官网连接部署kube-prometheus完成后查看pods时,<span>alert</span>manager有个服务起不来,描述提示dial tcp 10.88.0.88:9093: connect: connection refused,
比较疑惑是什么导致这个内部pod之间无法通讯的,有大神帮忙看看嘛,如果缺了其他截图可补充,谢谢了~~
使用kubectl describe pods alertmanager-main-2 -n monitoring查看描述
prometheus的Targets也是有相关报错
按照这个官方问题解决去做了,启动没报错,实际上,查看描述,还是有连不上
kubectl describe pods alertmanager-main-1 -n monitoring
@前行520: 建议通过 kubectl get events | sort
命令看一下是否有相关日志
@dudu: 我是通过 kubectl logs --tail=20 pod/alertmanager-main-2 alertmanager -n monitoring查看了日志,其中的一个提示Failed to join 10.88.0.97: dial tcp 10.88.0.97:9094: connect: connection refused\n\n"
另外两个提示Failed to resolve alertmanager-main-2.alertmanager-operated:9094: lookup alertmanage
r-main-2.alertmanager-operated on 10.10.0.10:53
目前觉得是pod之间的通讯有问题,我接下来准备在monitoring孔建启动一个pod,然后curl试一下能不能通
@dudu: 我在monitoring启动了一台测试机器,ping内部pod ip和百度ip是通了,telnet内部ip+端口没通。具体截图如下
初步确定是内部pod网络无法通讯的问题。今早我检查了我当初初始化6台服务器的配置,是正常,我把当初初始化的截图也贴上
@前行520: 如果是无法通讯的问题,不会出现 connection refused
错误,出现这个错误通常是绑定该端口的服务没有启动
@dudu: 好的,那我再启动一个tomcat的pod,然后telnet相应的端口做一下测试。
@dudu: 我通过deployment启动了一个tomcat,在另一个pod去ping这个ip,能通,但是telnet不通,感觉是svc的问题
场景:存在与node2的pod只有node2能ping 通, 其他节点全部超时,
结论:集群之间的通讯有问题,我正在想办法处理
部署kube-prometheus就已经存在问题了,这个问题我先关闭了,谢谢大佬帮忙
这个问题解决了吗,我也遇到了