大量的导入任务突然卡住不结束

haibo · 2023年07月27日 08:40

为了更快的定位您的问题，请提供以下信息，谢谢
【详述】15:30 开始突然同一个库下的导入任务都卡住处于 prepare 状态，看日志 commit 后卡住了，请问下原因是什么？
【背景】没做操作
【业务影响】
【StarRocks版本】2.5.4
【集群规模】例如：3fe+5be（fe与be独立部署）
【机器信息】CPU虚拟核/内存/网卡，例如：48C/64G/万兆
【表模型】例如：主键模型
【导入或者导出方式】Flink 导入
【联系方式】18829283520
【附件】
一共有 100 个同一个库的事务卡住，从 15:30 开始

以 transactionId = 为例，查看对应 be cooridinotr 的日志，commit 后一直卡住了

jingdan · 2023年07月27日 09:00

把这个be的info日志和leader fe的日志上传下我们看看
leader fe日志需要grep 13078211 fe.log* >13078211.txt

jingdan · 2023年07月27日 09:00

另外可以拿下这个be的pstack，pstack $be_pid > pstack.txt，快速恢复可以尝试先重启这个be

haibo · 2023年07月27日 09:44

好的，日志等信息：log.tar.gz (34.3 MB)

haibo · 2023年07月27日 16:55

重启没有作用，请问有其他临时解决方式吗，现在只能不断提高阈值

haibo · 2023年07月28日 05:37

@jingdan hello, 请问下有别的临时方案吗，比如怎么能取消或者手动将现在卡住的事务置为成功

Liang · 2023年07月28日 09:30

机器负载不高的话，试试调整下这个参数max_running_txn_num_per_db：
ADMIN SET FRONTEND CONFIG ("key" = "value");

W0727 16:03:38.441634 95659 stream_load_executor.cpp:156] begin transaction failed, errmsg=current running txns on db 141667 is 100, larger than limit 100id=c8401d6df96c0055-8d227599f56dfa9a, job_id=-1, txn_id: -1, label=81e396af-407c-4ae4-aaa8-a2fd66aeafc6, db=ilad_lianshan_prod

haibo · 2023年07月28日 14:15

现在就是通过这种方式的在解决的，但是提高后有一批又卡住，然后又提高；有没有取消卡住事务或置为结束的方式呢

meegoo · 2023年08月10日 07:43

prepared状态的事务可以通过abort命令取消掉，你们是使用flink connector进行数据导入的吗

haibo · 2023年08月10日 08:01

是的，flink 实时导入的

yuchen1019 · 2023年08月10日 12:26

您好这个集群方便升级吗可以的话推荐可以升级到2.5.10版本在测试一下我看小版本有修复这方面的问题可以验证下

xiayuanjin · 2023年12月5日 14:03

怎么取消有具体命令吗，我有个库也是被预提交事务给占满了。

xiayuanjin · 2023年12月5日 14:04

老哥解决没

xiayuanjin · 2023年12月5日 14:06

是数据库直接执行吗，我执行咋报错了，有没有样例

夏天12 · 2023年12月18日 05:00

ADMIN SET FRONTEND CONFIG (“max_running_txn_num_per_db” = “500”);

类似这样