【FE线程数飙高】版本升级后FE线程数飙高且大量处于锁等待状态导致无法正常服务

【详述】版本升级后,一周内三次出现FE Leader节点线程数量异常飙升、StreamLoad/SQL任务无法写入、客户端连接响应超时情况。第一次出现时重启FE Leader节点恢复正常,第二次重启所有FE节点恢复正常,第三次重启两遍所有FE节点才恢复正常,整体呈现越发严重趋势。

从ThreadDump中看,大量线程在等待。



【背景】k8s部署,版本升级,从 3.2.9 升级至 3.2.13
【业务影响】数仓服务不可用
【是否存算分离】存算一体
【StarRocks版本】3.2.13
【集群规模】3FE + 14BE
【机器信息】FE:16vCPUs + 32GiB BE:24vCPUs + 192GiB
【联系方式】社区群14 CrazyRen
【附件】
image
ThreadDump如下
starrockscluster-prod-fe-2.txt (3.9 MB)

看看fe.log里在thread dump时间点前有没有slow db lock的日志.

没有发现