FE又崩了，查不到原因

yuyii · 2024年01月2日 02:55

【详述】FE莫名崩溃，这是上个月第二次崩溃了。。查不到原因。监控显示是1号下午17点20几分，fe dead了，查了日志看不出什么原因，fe也在继续记录，但是监控显示是死了，而且用客户端连starrocks也显示无法使用。后来直接重启就好了。想问下如何分析这个崩溃的原因，怎么看出来哪里造成的问题。看了warn日志有不少lockdb的情况，数据库基本都是用的hdd硬盘，是因为磁盘慢数据量大么？用到了routine load消费kafka数据实时写入log库。lockdb大部份出现在那个库。有大神能帮忙分析下可能是什么原因导致的么？
【背景】没有特殊操作，正常调度
【业务影响】业务中断，无法使用
【是否存算分离】否
【StarRocks版本】3.1.2
【集群规模】1fe+2be（fe与be混部）
【机器信息】8C/64G
【联系方式】
【附件】

fe.warn.log.20240101-1 (5.3 MB) fe.log (861.0 KB)

yuyii · 2024年01月2日 03:02

补个监控的图

dongquan · 2024年01月2日 12:13

数据库现在数据量有多大，集群有多少tablet,可以的话请提供下崩期间的fe.gc.log.如果再出现可以采集下jstack -l $fe_pid > /tmp/fe.log

yuyii · 2024年01月3日 03:00

大约6500个tablet，数据量占用磁盘一共500G不到，这是当时的gc log，感谢

fe.gc.log (24.9 KB)