fe节点异常重启原因排查

💬 StarRocks 用户问答

CY_SR 2022年10月8日 06:51 #1

【详述】
fe节点2022-10-08 10点35分到42分异常重启，想知道重启原因
【背景】做过哪些操作？：未知
【业务影响】：暂无
【StarRocks版本】：2.0.9
【集群规模】例如：6fe（3 follower+3observer）+5be（fe与be混部）
【机器信息】：16C/64G/万兆
【附件】

fe.warn.log/be.warn.log/相应截图
fe.warn.log (8.2 MB)

image1811×773 64.9 KB
慢查询：
- Profile信息
- 并行度：show variables like ‘%parallel_fragment_exec_instance_num%’;
- cbo是否开启：show variables like ‘%cbo%’;
- be节点cpu和内存使用率截图
  
  image1827×380 67.6 KB

JiangLai 2022年10月8日 06:47 #2

看看有没有发生gc：grep -i full log/fe.gc* 内存使用率截图没有上传上来，jvm设置的多大？

CY_SR 2022年10月8日 06:53 #3

用你的命令看了gc日志没有数据，异常前后BE内存使用率已上传，jvm设置的8G

JiangLai 2022年10月8日 07:15 #4

重启之后正常了吗？看warn日志出现：Cannot open null host.怀疑没有做主机名和ip的映射，fe侧有做负载均衡吗？现在集群是否正常？

CY_SR 2022年10月8日 08:18 #5

自动恢复了，就是想知道重启原因，fe侧是用的clb做负载，当前集群正常

JiangLai 2022年10月9日 06:09 #6

挂掉的fe是observer？看您提供的日志是observer的，只挂了这一个吗？

CY_SR 2022年10月9日 06:37 #7

是的，刚确认了下并没有重启，是状态DEAD了，5分钟左右才恢复

JiangLai 2022年10月9日 07:00 #8

该台fe状态异常到恢复时间是10点35分到42分？看日志这期间日志有空白,主要是表达式的类型转换计算一直没有成功导致最后query_timeout了，默认query超时时间您这边有改过吗？默认是600s

CY_SR 2022年10月10日 01:25 #9

改了，当前是30S

京ICP备2022026421号-1