FE leader异常try db lock failed. type: readLock，并且没切换

yuyii · 2024年03月14日 05:00

【详述】早上starrocks集群突然无法正常使用，所有导入任务都失败了，查了日志发现是fe leader异常，用的3个节点的fe，但leader并没有自动更新掉，造成业务异常。看日志大多数出现的try db lock failed. type: readLock。所有的数据写入任务都超时被杀掉了。同时监控在7点05分就显示节点dead了。

【背景】常规调度数据导入
【业务影响】无法使用
【是否存算分离】否
【StarRocks版本】3.1.2
【集群规模】3fe+3be（fe与be混部）
【机器信息】8C/64G
【联系方式】yuyii@qq.com
【附件】
fe.log:

fe.warn.log

yuchen1019 · 2024年03月15日 07:46

是三个follower节点吗任务失败应该是跟卡锁有关，后面可以配置下负载重试

yuyii · 2024年03月15日 04:08

2个follewer，1个leader。卡锁是什么，负载重试是怎么操作？
我通过show frontends显示都是alive，通过监控看到的确节点挂了，事实也是无法用了，报错的都是 failed to get stream load plan: get database read lock timeout

今天中午再次出现这个问题了。。也是昨天的集群，换了另外一个节点出现。

和写磁盘压力大有关么，ods写的是hdd。我看磁盘io也正常，怎么来排查这个问题，或者升级版本有可能解决吗？

yuchen1019 · 2024年03月15日 07:24

那就是3个fllower节点一个节点宕机会触发投票重新选主的当前看是没选出来任务一直报错是一直尝试但timeout了当前先升级吧升级到3.1.* 最新的小版本写入和查询任务后面可以配置负载如果能正常选主后面有重试的任务是不会受到影响的负载可以参考：https://docs.starrocks.io/zh/docs/3.1/administration/Load_balance/

yuyii · 2024年03月15日 08:17

好的，感谢，我周末先做个小版本升级再观察下。