fe.warn.log 出现大量 kill query timeout 警告，无法查询

飞速土豆 · 2025年02月11日 08:50

【详述】
收到业务方反馈，说很多查询无法返回结果。fe.warn.log 中有大量的 kill query timeout 警告。执行 show processlist 有60多个查询一直堵在那儿，包括很简单的 select 1 语句。由于这是第二次出现同样问题，于是直接重启了 be、fe 得到解决（先重启的 be，问题仍存在；重启 fe 后警告消失，恢复正常）。
【背景】集群一直在运行，所在 EC2 未出现底层故障，starrocks 也未挂掉或重启。
【业务影响】查询无法返回结果。
【是否存算分离】否，存算一体。
【StarRocks版本】ARM 3.3.5
【集群规模】1 * fe（4c 16g） + 1 * be（4c 32g）
【机器信息】fe aws m7g.xlarge，be aws r7g.xlarge
【联系方式】StarRocks-存算分离2群飞速土豆
【附件】
以下是最早出现警告信息的时间
2025-02-11 02:38:33.275Z WARN (Connect-Scheduler-Check-Timer-0|12) [ConnectContext.checkTimeout():936] kill query timeout, remote: 10.85.130.95:58144, query timeout: 300, query id: 962bdfff-e820-11ef-a3a9-02732c344fe1

从 EC2 监控看，BE 节点 CPU 指标有点异常。

FE 节点 CPU 指标正常

通过对 fe.warn.log 进行统计，发现 kill query timeout 只有4条 SQL 出现，次数都较多。从 2025-02-11 02:38:33.275Z 开始至 2025-02-11 04:12:00.275Z 重启 fe 后结束。
sorted_sql.txt (16.9 KB)

除此之外，未能在 fe、be 的日志中找到更多的信息。

kechel · 2025年02月14日 08:37

您好，请问解决了么

飞速土豆 · 2025年02月14日 08:58

暂时没有。临时解决方法就是针对 fe.warn.log（已采集到 es）加了监控，出现大量 kill query timeout 就手动重启 fe。

kechel · 2025年02月14日 09:09

我现在也是遇到就重启，但是现在有点频繁了，感觉会不会是cpu的问题，增大资源会有效果么

飞速土豆 · 2025年02月14日 09:49

上面的链接是 CPU 高时出现的，已经在 3.1 最新版本修复了。

我这边看着不像，出问题的时候 CPU 使用率还行，也就 be 高点。

看你的版本是不是需要升级。