整个集群不能新建分区

super_pikachu · 2024年11月1日 07:54

【详述】整个集群突然不能创建新分区了，离线导入程序和实时任务报错基本相同

create partitions failed: Table creation timed out.
You can increase the timeout by increasing the config "tablet_create_timeout_second" and try again.
To increase the config "tablet_create_timeout_second" (currently 60), run the following command:

admin set frontend config("tablet_create_timeout_second"="120")

or add the following configuration to the fe.conf file and restart the process:tablet_create_timeout_second=120

at com.starrocks.qe.StmtExecutor.handleDMLStmt(StmtExecutor.java:2241)
        at com.starrocks.qe.StmtExecutor.handleDMLStmtWithProfile(StmtExecutor.java:1832)
        at com.starrocks.qe.StmtExecutor.execute(StmtExecutor.java:689)
        at com.starrocks.qe.ConnectProcessor.proxyExecute(ConnectProcessor.java:775)
        at com.starrocks.service.FrontendServiceImpl.forward(FrontendServiceImpl.java:1314)
        at com.starrocks.thrift.FrontendService$Processor$forward.getResult(FrontendService.java:4276)
        at com.starrocks.thrift.FrontendService$Processor$forward.getResult(FrontendService.java:4256)
        at org.apache.thrift.ProcessFunction.process(ProcessFunction.java:38)
        at org.apache.thrift.TBaseProcessor.process(TBaseProcessor.java:38)
        at com.starrocks.common.SRTThreadPoolServer$WorkerProcess.run(SRTThreadPoolServer.java:311)
        at java.base/java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1128)
        at java.base/java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:628)
        at java.base/java.lang.Thread.run(Thread.java:829)

【背景】做过哪些操作？

1.按照报错设置过admin set frontend config(“tablet_create_timeout_second”=“120”) 甚至更长时间还是不起作用
2.想建新表测试，表无法建立，一样是超时问题
3.尝试手动Insert into新分区数据来创建新分区也会报一样的超时错误
4.重启所有fe无效
5.删除所有物化视图，重启所有be，正常大概十几分钟，然后又是相同的超时错误
6.将集群从3.2.11升级到3.2.12，再次重启be 还是正常十几分钟然后相同的错误

检查发现在每次重启的时候，有一台 be 节点机器的读写meta data数据速率直接飙升，将该机器的 BE 停止服务，表基本都是三副本，所以不影响

停止该机器后，一切正常，可以新建分区等操作，实时任务也正常

停止大概十几分钟之后，再将该 BE 服务重启，一切正常

【业务影响】
几乎所有业务，只要新建分区都受到影响

【是否存算分离】
否

【StarRocks版本】
3.2.11 以及升级后的 3.2.12 都存在

【集群规模】3fe+12be

【机器信息】
fe: 2c+14G
be: 32c+64G

【联系方式】
aub@adtiming.com
pikachu.liu@adtiming.com

super_pikachu · 2024年11月4日 02:42

后续发现是一个主键表太大了

大概2T+数据，97亿条

有一个每小时更新插入的任务,每小时更新进入的数据量大概是2000w+条数据，新建一个表swap掉旧表，任务往新表插数据，就没有这个问题了