【详述】
starrocks 3.3.7版本,存算分离集群。
操作步骤:
1)刷新物化视图,运行中 (机器缩容前后,物化视图刷新任务一直在运行);
2)机器缩容
3)发现物化视图刷新卡住,5分钟可以刷新完成的物化视图,在1小时后失败。
(经过测试发现,是因为 session.query_timeout 默认1小时,所以1小时后才失败。)
4)稳定复现,就是手动刷新的异步物化视图
其他信息:
如果缩容以后,开启一个新任务,刷新物化视图,是成功的
数据导入到内表时,机器缩容无问题,数据导入任务会立即失败。
期望的效果:
如果缩容时有物化视图在刷新,期望是要么立即失败,要么正常执行刷新成功,而不是卡住没有进展。
考虑的方案有,session.query_timeout 设置更短的时间,比如10分钟。 但是如果未来某天,物化视图刷新耗时超过10分钟,则刷新任务会失败,维护起来也挺麻烦。
【业务影响】 期望的是 如果缩容时有物化视图在刷新,期望是要么立即失败,要么正常执行刷新成功,而不是卡住没有进展。
【是否存算分离】是
【StarRocks版本】3.3.7
【集群规模】 1fe + 3 be
【机器信息】 4核32G, 3台
【联系方式】社区群25-gooood, 微信号:varyfrom24
【附件】fe_warn日志如下:
17:11 刷新物化视图;
17:17 机器缩容完成;
session.query_timeout 设置的是10分钟。
10分钟失败后,我们的脚本会重试刷新物化视图,重试刷新成功了。
fe_warn_log.txt (39.2 KB)