FLink实时写入报错

【详述】Flink导数到SR,出现多次Failed to call frontend service报错,且部分任务重试三次均失败导致数据丢失
【背景】该现象与一个批量导数业务相关。开始批量任务期间,该现象频繁发生。但机器负载并不很高
【StarRocks版本】1.19.5
【集群规模】3fe(1 follower+2observer)+5be(fe与be混部)

Master Fe日志:

可以看到第一次收到开启事务请求,过了三分钟Fe才开启事务。根据 jstack 日志,Fe在此期间都在等待Catalog.Database.readLock的锁

对应代码

查看下集群连接数有多少,然后您去到日志中搜下看有无以下关键字 :
failed to try write lock at db,database lock is held by,failed to try write lock at db

您好。集群连接数,一台Fe有240,一台Fe十几 。没有搜到上面关键字

我们发现,拿到锁的是reportHandler,sync时耗时非常久

你好,请问最后是怎么解决的呢

你好,方便加个微信吗?最近我们生产集群遇到了db lock的问题,我在社区群-15,昵称:老张