Not connected to xxx:8060 yet

煤油八二个 · 2023年04月3日 02:57

【详述】问题详细描述
线上刚部署了SR集群（3台fe，6台be），执行sql时，部分成功，部分失败，并且报错：transmit chunk rpc failed:
【背景】做过哪些操作？
【业务影响】
【StarRocks版本】例如：2.5.0
【集群规模】例如：3fe（1 follower+2observer）+6be（fe与be独立部署）
【机器信息】CPU虚拟核/内存/网卡，例如：fe:4C/16G/万兆 be: 8c/24G/万兆
【联系方式】
【附件】

部分be日志 /be.WARERING/相应截图

image1269×588 430 KB

JiangLai · 2023年04月3日 03:13

be：10.1.228.135这个节点的报错时间点的info日志（文件形式）能发下看看吗？线上环境的话您这边麻烦重启一下10.1.228.135这个be试试，看看执行sql还会不会报错呢？

煤油八二个 · 2023年04月3日 03:17

报错be节点不是10.1.228.135哦，图片错误日志是另外一台服务器，是不是当前错误节点与10.1.228.135、10.1.228.136、10.1.228.137节点通信有问题？
另外错误节点刚才已经重启过了

JiangLai · 2023年04月4日 02:18

可能是通信有问题，日志中除了出现135这个节点，也有其它节点吗？重启之后还有没有重现这个错误呢？下次出现这个问题，麻烦fe leader节点执行以下show backends看看是不是所有的be都是alive的？

煤油八二个 · 2023年04月4日 02:29

目前我们部署了6台be节点10.1.228.135、10.1.228.136、10.1.228.137，10.8.228.135、10.8.228.136、10.8.228.137，其中10.1和10.8是网络隔离的，但是根据官方文档我们已经开通了相应的防火墙策略（fe: 8030、9020、9030、
9010
be:9060、8040、9050、8060）。集群部署完成之后fe leader节点执行show backends所有be节点都是alive的。目前看来只有10.8的三台be有图片上的报错。如果10.8节点通信有问题，show backends为啥还是alive呢？

JiangLai · 2023年04月4日 02:34

你ping一下看看能不能通，你说的能看到alive的，是因为它可以和fe leader间通信，发送心跳，但是其它be之间也需要通信

煤油八二个 · 2023年04月4日 02:37

telnet端口都是通的，所以就很奇怪。除了以上列出来的端口，还有其他通信端口吗？

dongquan · 2023年04月4日 03:27

fe 的日志中有类似的信息么？怀疑是有通信延迟

煤油八二个 · 2023年04月7日 00:44

我在网上找到Doris文档有相同的报错，里面给出的解决方案。对应StarRocks的配置是啥？