【详述】Flink导数到SR,出现多次Failed to call frontend service报错,且部分任务重试三次均失败导致数据丢失
【背景】该现象与一个批量导数业务相关。开始批量任务期间,该现象频繁发生。但机器负载并不很高
【StarRocks版本】1.19.5
【集群规模】3fe(1 follower+2observer)+5be(fe与be混部)
Master Fe日志:
可以看到第一次收到开启事务请求,过了三分钟Fe才开启事务。根据 jstack 日志,Fe在此期间都在等待Catalog.Database.readLock的锁
对应代码