首页 新闻 搜索 专区 学院

k8s1.20部署kube-prometheus时,alertmanager提示dial tcp 10.88.0.88:9093: connect: connection refused

0
悬赏园豆:120 [已解决问题] 解决于 2021-11-26 17:38

系统:centos7.9
k8s版本:1.20.12 (三主三从)
kube-prometheus版本:release-0.7
官网链接:https://github.com/prometheus-operator/kube-prometheus/tree/release-0.7
按照官网连接部署kube-prometheus完成后查看pods时,<span>alert</span>manager有个服务起不来,描述提示dial tcp 10.88.0.88:9093: connect: connection refused,
比较疑惑是什么导致这个内部pod之间无法通讯的,有大神帮忙看看嘛,如果缺了其他截图可补充,谢谢了~~

使用kubectl describe pods alertmanager-main-2 -n monitoring查看描述

prometheus的Targets也是有相关报错

前行520的主页 前行520 | 初学一级 | 园豆:96
提问于:2021-11-24 20:49
< >
分享
最佳答案
0
收获园豆:120
dudu | 高人七级 |园豆:37154 | 2021-11-24 21:48

按照这个官方问题解决去做了,启动没报错,实际上,查看描述,还是有连不上

kubectl describe pods alertmanager-main-1 -n monitoring

前行520 | 园豆:96 (初学一级) | 2021-11-25 11:02

@前行520: 建议通过 kubectl get events | sort 命令看一下是否有相关日志

dudu | 园豆:37154 (高人七级) | 2021-11-25 12:03

@dudu: 我是通过 kubectl logs --tail=20 pod/alertmanager-main-2 alertmanager -n monitoring查看了日志,其中的一个提示Failed to join 10.88.0.97: dial tcp 10.88.0.97:9094: connect: connection refused\n\n"
另外两个提示Failed to resolve alertmanager-main-2.alertmanager-operated:9094: lookup alertmanage
r-main-2.alertmanager-operated on 10.10.0.10:53



目前觉得是pod之间的通讯有问题,我接下来准备在monitoring孔建启动一个pod,然后curl试一下能不能通

前行520 | 园豆:96 (初学一级) | 2021-11-25 13:48

@dudu: 我在monitoring启动了一台测试机器,ping内部pod ip和百度ip是通了,telnet内部ip+端口没通。具体截图如下


初步确定是内部pod网络无法通讯的问题。今早我检查了我当初初始化6台服务器的配置,是正常,我把当初初始化的截图也贴上

前行520 | 园豆:96 (初学一级) | 2021-11-25 14:23

@前行520: 如果是无法通讯的问题,不会出现 connection refused 错误,出现这个错误通常是绑定该端口的服务没有启动

dudu | 园豆:37154 (高人七级) | 2021-11-25 14:31

@dudu: 好的,那我再启动一个tomcat的pod,然后telnet相应的端口做一下测试。

前行520 | 园豆:96 (初学一级) | 2021-11-25 14:37

@dudu: 我通过deployment启动了一个tomcat,在另一个pod去ping这个ip,能通,但是telnet不通,感觉是svc的问题

前行520 | 园豆:96 (初学一级) | 2021-11-25 15:19
其他回答(1)
0

场景:存在与node2的pod只有node2能ping 通, 其他节点全部超时,
结论:集群之间的通讯有问题,我正在想办法处理
部署kube-prometheus就已经存在问题了,这个问题我先关闭了,谢谢大佬帮忙

前行520 | 园豆:96 (初学一级) | 2021-11-26 17:37
清除回答草稿
   您需要登录以后才能回答,未注册用户请先注册