【后台任务偶尔出现卡死现象】

TNT_PANDA · 2023年12月5日 02:56

为了更快的定位您的问题，请提供以下信息，谢谢
【详述】问题详细描述
1）后台任务INSERT INTO XXX SELECT XXX偶尔出现卡死现象，直到3600s后timeout杀死，平时执行只需要一分钟内；

【背景】做过哪些操作？
1）任务调度每半点执行一次，最近版本从3.0.6升级到3.0.8之后就偶尔出现
2）后台任务伴随一些大流量的抽取任务，例如SELECT * FROM XXX;总数据量1.2亿
3）调度任务是通过阿斯卡班来调度
4）代理层是通过proxysql来转发请求
【业务影响】
后台任务报错
【是否存算分离】
否
【StarRocks版本】例如：3.0.8
【集群规模】例如：3fe（1 follower+2observer）+5be（fe与be混部）
【机器信息】CPU虚拟核/内存/网卡，例如：48C/64G/万兆
【联系方式】为了在解决问题过程中能及时联系到您获取一些日志信息，请补充下您的联系方式，例如：社区群4-小李或者邮箱，谢谢
【附件】
LOG1205.zip (20.9 MB)

yuchen1019 · 2023年12月5日 11:26

可以帮忙确认下看数据有无写入进去呢？近期除升级外业务上有做过什么调整吗

TNT_PANDA · 2023年12月6日 01:18

1）数据没有写入成功，到了3600秒后，timeout杀了；
2）做了以下操作除升级，
1. 升级3.0.8，解决crash
2. set global pipeline_dop=8 解决resource 报错那个问题
3. 修改max open files操作系统的限制，规避一些问题
4.ulimit -n 655350
5.be.conf 增加 flush_thread_num_per_store=4
3）而且不是每次都同一个sql有问题，其他sql也偶发

TNT_PANDA · 2023年12月6日 07:43

current_date()这个函数是否有坑；今天有一个SQL又出现卡死，里面有引用到这个函数，具体sql如附件mm.sql (35.8 KB)

yuchen1019 · 2023年12月6日 09:12

嗯呢这些改动都是合理的当前任务通过azkaban配置了重试了吗先规避下影响再帮忙看下卡死的任务都是带有current_date这个函数吗

TNT_PANDA · 2023年12月6日 09:27

1）暂时先通过 set query_timeout=XX;方式限制单个会话的查询超时规避；
2）暂时看是有用到这个日期函数，不过感觉关联性不会特别强，因为没升级之前好像没出现这种异常，而且偶发；
3）这个表的结构是一个明细模型，操作是按日期删除今天的所有数据，再插入；主键是这个日期，不具备唯一性

TNT_PANDA · 2023年12月6日 09:51

BE节点 be.warn日志出现以下