onceTalkTimeout异常

各位大佬求助,谢谢
【详述】SR的fe访问某些be节点超时异常,be节点重启也无法恢复


查看对应be节点,发现该be节点负载(300多)相较其他be节点负载(10以内)高很多,日志打印大量报错日志内容

【背景】创建过异步物化视图后运行一段时间出现该问题,停止异步物化视图后此现象还是会存在
【业务影响】所有sql查询异常缓慢(包括系统任务等信息查询),routine load任务在运行中状态但是实际未消费kafka数据并有错误failed to send task: java.net.SocketTimeoutException: Read timed out
【StarRocks版本】2.5.2
【集群规模】例如:3fe+16be
【机器信息】CPU虚拟核/内存/网卡,48C/256G/万兆
【联系方式】1050235997@qq.com
【附件】

现在恢复了吗,看起来是be负载过高有点卡死了,如果还有问题的话可以打个pstack。pstack $be_pid > be.pstack

1.优化了物化视图的逻辑
2.在fe的日志中发现大量version的报错且tablet来源于StarRocks的元信息表,通过社区关于version过多的解决方法修改be的配置信息
目前已经稳定了一个多月没出现问题了,物化视图也都正常执行
就是不清楚到底是不是这个原因导致的 :sweat_smile: