FE leader异常try db lock failed. type: readLock,并且没切换

【详述】早上starrocks集群突然无法正常使用,所有导入任务都失败了,查了日志发现是fe leader异常,用的3个节点的fe,但leader并没有自动更新掉,造成业务异常。看日志大多数出现的try db lock failed. type: readLock。所有的数据写入任务都超时被杀掉了。同时监控在7点05分就显示节点dead了。

【背景】常规调度数据导入
【业务影响】无法使用
【是否存算分离】否
【StarRocks版本】3.1.2
【集群规模】3fe+3be(fe与be混部)
【机器信息】8C/64G
【联系方式】yuyii@qq.com
【附件】
fe.log:

fe.warn.log




是三个follower节点吗 任务失败应该是跟卡锁有关,后面可以配置下负载重试

2个follewer,1个leader。卡锁是什么,负载重试是怎么操作?
我通过show frontends显示都是alive,通过监控看到的确节点挂了,事实也是无法用了,报错的都是 failed to get stream load plan: get database read lock timeout

今天中午再次出现这个问题了。。也是昨天的集群,换了另外一个节点出现。

和写磁盘压力大有关么,ods写的是hdd。我看磁盘io也正常,怎么来排查这个问题,或者升级版本有可能解决吗?

那就是3个fllower节点 一个节点宕机 会触发投票重新选主的 当前看是没选出来 任务一直报错是一直尝试但timeout了 当前先升级吧 升级到3.1.* 最新的小版本 写入和查询任务后面可以配置负载 如果能正常选主 后面有重试的任务是不会受到影响的 负载可以参考:https://docs.starrocks.io/zh/docs/3.1/administration/Load_balance/

好的,感谢,我周末先做个小版本升级再观察下。