【后台任务偶尔出现卡死现象】

为了更快的定位您的问题,请提供以下信息,谢谢
【详述】问题详细描述
1)后台任务INSERT INTO XXX SELECT XXX偶尔出现卡死现象,直到3600s后timeout杀死,平时执行只需要一分钟内;





【背景】做过哪些操作?
1)任务调度每半点执行一次,最近版本从3.0.6升级到3.0.8之后就偶尔出现
2)后台任务伴随一些大流量的抽取任务,例如SELECT * FROM XXX;总数据量1.2亿
3)调度任务是通过阿斯卡班来调度
4)代理层是通过proxysql来转发请求
【业务影响】
后台任务报错
【是否存算分离】

【StarRocks版本】例如:3.0.8
【集群规模】例如:3fe(1 follower+2observer)+5be(fe与be混部)
【机器信息】CPU虚拟核/内存/网卡,例如:48C/64G/万兆
【联系方式】为了在解决问题过程中能及时联系到您获取一些日志信息,请补充下您的联系方式,例如:社区群4-小李或者邮箱,谢谢
【附件】
LOG1205.zip (20.9 MB)

可以帮忙确认下看数据有无写入进去呢 ? 近期除升级外 业务上有做过什么调整吗

1)数据没有写入成功,到了3600秒后,timeout杀了;
2)做了以下操作除升级,
1. 升级3.0.8,解决crash
2. set global pipeline_dop=8 解决resource 报错那个问题
3. 修改max open files操作系统的限制,规避一些问题
4.ulimit -n 655350
5.be.conf 增加 flush_thread_num_per_store=4
3)而且不是每次都同一个sql有问题,其他sql也偶发

current_date()这个函数是否有坑;今天有一个SQL又出现卡死,里面有引用到这个函数,具体sql如附件mm.sql (35.8 KB)

嗯呢 这些改动都是合理的 当前任务通过azkaban配置了重试了吗 先规避下影响 再帮忙看下卡死的任务 都是带有current_date这个函数吗

1)暂时先通过 set query_timeout=XX;方式限制单个会话的查询超时规避;
2)暂时看是有用到这个日期函数,不过感觉关联性不会特别强,因为没升级之前好像没出现这种异常,而且偶发;
3)这个表的结构是一个明细模型,操作是按日期删除今天的所有数据,再插入;主键是这个日期,不具备唯一性

BE节点 be.warn日志出现以下