当创建表失败一次后,后面所有的建表都失败,重启也不一定解决问题

【详述】当建表语句失败或报错过一次后,后面的所有表都创建失败,都报ERROR 1064 (HY000): fail to create tablet: timed out. unfinished replicas(yyy/xxx):XXX:IP1,XXX:IP2,XXX:IP3 timeout=kkk的错误
image
【背景】前面一次建表语句写错了,建表后报错
【业务影响】
【StarRocks版本】例如:2.1.1
【集群规模】例如:3fe(1 follower+2observer)+40be(fe与be混部)
【机器信息】48C/512G/千兆
【附件】

  • 并行度:show variables like ‘%parallel_fragment_exec_instance_num%’;
    image
  • cbo是否开启:show variables like ‘%cbo%’;
    image
  • be节点cpu和内存使用率截图

1.可以提供报错的一台be的日志be.INFO
2.可以调大tablet_create_timeout_second(默认1,可以调为5)时间,观察下是否成功,支持动态修改,具体可参考配置管理


这个就是报错的那台在建表后的日志信息,9点35分提交的建表语句,等了几十秒后就报错,但看日志貌似收到七个tablet的创建任务,到9点42分才开始创建最会一个,为啥创建7个tablet要这么久?这样是不是要把max_create_table_timeout_second 改为8分钟才可以?


这个就是报错的那台在建表后的日志信息,9点35分提交的建表语句,等了几十秒后就报错,但看日志貌似收到七个tablet的创建任务,到9点42分才开始创建最会一个,为啥创建7个tablet要这么久?这样是不是要把max_create_table_timeout_second 改为8分钟才行?


我又试了一次,这次捕捉到了比较完整的日志,大佬你看看这个。9点52分提交的创建任务。

能发一个完整的日志吗

或者在社区群么?加我企业微信看下?

完整日志是指整个日志文件吗?

在的,我在社区群问过你了

社区群10群 ,今天回复你的那个就是我

已知问题,需要升级到2.2

# 客户端报错
fail to create tablet timed out unfinished replicas xxx

# BE 这个时间有大量日志
I1111 10:04:33.745174 91674 tablet_manager.cpp:346] Dropping tablet 1328953
I1111 10:04:33.745180 91675 tablet_manager.cpp:346] Dropping tablet 1330983
I1111 10:04:33.745381 91674 tablet_manager.cpp:346] Dropping tablet 1331035
I1111 10:04:33.745388 91675 tablet_manager.cpp:346] Dropping tablet 46931
I1111 10:04:33.745560 91674 tablet_manager.cpp:346] Dropping tablet 1333065
I1111 10:04:33.745597 91675 tablet_manager.cpp:346] Dropping tablet 1326923
I1111 10:04:33.745762 91674 tablet_manager.cpp:346] Dropping tablet 1326975
I1111 10:04:33.745785 91675 tablet_manager.cpp:346] Dropping tablet 1329005
I1111 10:04:33.745963 91674 tablet_manager.cpp:346] Dropping tablet 1331091
2赞

您好,怎么进群或者联系您

你有什么问题?可以直接在论坛上发帖,或是加群。