存算分离添加字段卡死,最终1天后超时

为了更快的定位您的问题,请提供以下信息,谢谢
【详述】问题详细描述


添加字段任务一直卡死,总计1160,会最终超时。
【背景】做过哪些操作?
通过ALTER TABLE ADD COLUMNS添加字段。
【业务影响】
添加字段超时。
【是否存算分离】是
【StarRocks版本】例如:3.1.13
【集群规模】例如:3fe(1 follower+2observer)+15be(fe与be独立部署)
【机器信息】CPU虚拟核/内存/网卡,例如:64C/256G/万兆
【联系方式】为了在解决问题过程中能及时联系到您获取一些日志信息,请补充下您的联系方式,例如:社区群4-小李或者邮箱,谢谢
【附件】

请问同时进行的schema change任务有几个,添加字段的表数据量多大,有多少个tablet

只有1个任务,添加字段的表数据量约 200G,有 1160个 tablet。目前一直是卡在 987/1160

可以提供下fe leader节点在卡住期间的日志信息么,如果可以复现,请帮忙采集一个jstack -l $fe_pid ,pid换成fe进程的


请问一下,卡住是否与上图日志中 timeout 有关呢

这个好像是一个超时时间控制的,但是这个报错通常是任务已经被cancel了,你这个还显示正在运行中有些奇怪,可以调大be的这个参数report_task_interval_seconds

@LX2333 report_task_interval_seconds

可以调大report_task_interval_seconds,默认是10,默认值实际取值是设置值10 * 20=200

可以考虑升到3.3,有schema evolution功能,加字段不需要重构历史数据,可以秒级别加字段