[3.3.10] cpu负载长时间占用, sql全部执行两个小时超时, 集群sql阻塞无法执行

colagy · 2025年04月3日 10:47

为了更快的定位您的问题，请提供以下信息，谢谢
【详述】问题详细描述
问题现象4月2号3点多到8点多集群状态不正常, 重启解决的

sql执行超时, 无法执行

日志中比较多的rpc recoder超过2G, 怀疑是这里的问题

W20250402 06:08:16.490433 140034142692928 recorder.h:254] Input=2147483647 to `rpc_server_8060_starrocks_pinternal_service_transmit_chunk’ overflows

也可能是这个任务执行失败导致的

也可能是spill的问题

也可能是数据湖写入导致的

【背景】做过哪些操作？
【业务影响】
【是否存算分离】
【StarRocks版本】例如：1.18.2
【集群规模】例如：3fe（1 follower+2observer）+5be（fe与be混部）
【机器信息】CPU虚拟核/内存/网卡，例如：48C/64G/万兆
【联系方式】为了在解决问题过程中能及时联系到您获取一些日志信息，请补充下您的联系方式，例如：社区群4-小李或者邮箱，谢谢
【附件】

fe.log/beINFO/相应截图
慢查询：
- Profile信息
- 并行度：show variables like ‘%parallel_fragment_exec_instance_num%’;
- pipeline是否开启：show variables like ‘%pipeline%’;
- be节点cpu和内存使用率截图
查询报错：
- query_dump，怎么获取query_dump文件
be crash
- be.out
外表查询报错
- be.out和fe.warn.log