2.5.6版本后加的be节点报错Read timed out

为了更快的定位您的问题,请提供以下信息,谢谢
【详述】突发fe节点异常下线了1h
【背景】什么也没做
【业务影响】1%以内的query error rate
【是否存算分离】否
【StarRocks版本】例如:2.5.6
【集群规模】例如:3fe+4be(fe/be单独部署,报错的是单独后加的be节点)
【机器信息】CPU虚拟核/内存/网卡,例如:32C/64G/万兆
【联系方式】18210052731
【附件】




问题持续了1h,正在排查期,自动恢复了。

这是be的内核异常了吧,机器重启了?

机器没重启,进程也没重启,就是看到有这么个系统日志。

be进程一直正常,服务器负载也基本正常,单独看下线的be节点没重新加入前也是没任何异常的。

不过看dmesg是内核异常

dmesg的异常时间点不是那么匹配,问题大概在12:54-55,那个信息在12:57了,12:59也出现了同样的信息,然后就没再报任务错误了,但是13:55这个节点才重新加入集群。

dmesg和be.out发下看看

be.out什么也没输出,怀疑是阿里ecs底层硬盘有问题了,dmesg上面的截图有了

这看起来系统hung住了?可以找阿里云的确认下, be crash一般会在be.out打印信息或者oom会在demsg中显示oom-killer