大量的导入任务突然卡住不结束

为了更快的定位您的问题,请提供以下信息,谢谢
【详述】15:30 开始突然同一个库下的导入任务都卡住处于 prepare 状态,看日志 commit 后卡住了,请问下原因是什么?
【背景】没做操作
【业务影响】
【StarRocks版本】2.5.4
【集群规模】例如:3fe+5be(fe与be独立部署)
【机器信息】CPU虚拟核/内存/网卡,例如:48C/64G/万兆
【表模型】例如:主键模型
【导入或者导出方式】Flink 导入
【联系方式】18829283520
【附件】
一共有 100 个同一个库的事务卡住,从 15:30 开始

以 transactionId = 为例,查看对应 be cooridinotr 的日志,commit 后一直卡住了

把这个be的info日志和leader fe的日志上传下我们看看
leader fe日志需要grep 13078211 fe.log* >13078211.txt

另外可以拿下这个be的pstack,pstack $be_pid > pstack.txt,快速恢复可以尝试先重启这个be

好的,日志等信息:log.tar.gz (34.3 MB)

重启没有作用,请问有其他临时解决方式吗,现在只能不断提高阈值

@jingdan hello, 请问下有别的临时方案吗,比如怎么能取消或者手动将现在卡住的事务置为成功

机器负载不高的话,试试调整下这个参数max_running_txn_num_per_db:
ADMIN SET FRONTEND CONFIG ("key" = "value");

W0727 16:03:38.441634 95659 stream_load_executor.cpp:156] begin transaction failed, errmsg=current running txns on db 141667 is 100, larger than limit 100id=c8401d6df96c0055-8d227599f56dfa9a, job_id=-1, txn_id: -1, label=81e396af-407c-4ae4-aaa8-a2fd66aeafc6, db=ilad_lianshan_prod

现在就是通过这种方式的在解决的,但是提高后有一批又卡住,然后又提高;有没有取消卡住事务或置为结束的方式呢

prepared状态的事务可以通过abort命令取消掉,你们是使用flink connector进行数据导入的吗

是的,flink 实时导入的

您好 这个集群方便升级吗 可以的话 推荐可以升级到2.5.10版本在测试一下 我看小版本有修复这方面的问题 可以验证下

怎么取消有具体命令吗,我有个库也是被预提交事务给占满了。

老哥解决没

是数据库直接执行吗,我执行咋报错了,有没有样例

ADMIN SET FRONTEND CONFIG (“max_running_txn_num_per_db” = “500”);

类似这样