fe节点异常重启原因排查

【详述】
fe节点2022-10-08 10点35分到42分 异常重启,想知道重启原因
【背景】做过哪些操作?:未知
【业务影响】:暂无
【StarRocks版本】:2.0.9
【集群规模】例如:6fe(3 follower+3observer)+5be(fe与be混部)
【机器信息】:16C/64G/万兆
【附件】

  • fe.warn.log/be.warn.log/相应截图
    fe.warn.log (8.2 MB)
  • 慢查询:
    • Profile信息
    • 并行度:show variables like ‘%parallel_fragment_exec_instance_num%’;
      image
    • cbo是否开启:show variables like ‘%cbo%’;
      image
    • be节点cpu和内存使用率截图

看看有没有发生gc:grep -i full log/fe.gc* 内存使用率截图没有上传上来,jvm设置的多大?

用你的命令看了gc日志 没有数据,异常前后BE内存使用率已上传,jvm设置的8G

重启之后正常了吗?看warn日志出现:Cannot open null host.怀疑没有做主机名和ip的映射,fe侧有做负载均衡吗?现在集群是否正常?

自动恢复了,就是想知道重启原因,fe侧是用的clb做负载,当前集群正常

挂掉的fe是observer?看您提供的日志是observer的,只挂了这一个吗?

是的,刚确认了下 并没有重启,是状态DEAD了,5分钟左右才恢复

该台fe状态异常到恢复时间是10点35分到42分? 看日志这期间日志有空白,主要是表达式的类型转换计算一直没有成功导致最后query_timeout了 ,默认query超时时间您这边有改过吗?默认是600s

改了,当前是30S
image