be挂掉 routine load task报timeout

【详述】be挂掉 routine load task报timeout
【背景】做过哪些操作?
【业务影响】
【StarRocks版本】 2.3.3
【集群规模】3fe(1 follower+2observer)+6be(fe与be混部)
【机器信息】 108C/500G/万兆
【附件】



是社区1群的问题吧?建议升级到2.3的最新小版本吧,2.3.12

是的,升级到最新版可以解决就行,主要我们是金融行业,稳定性要求很高,一般不遇到非必须要升级就不敢升级太快

嗯,了解。目前2.3.12和2.5是LTS版本,都比较稳定,小版本只会修复bug,不会引入其他问题,另外也支持回滚,可以找时间升级下

已经升级到2.3.12版本,还存在 be IOUtil 100%甚至更高问题(业务是否高峰,都存在)

be挂了?那发下be.out,看看堆栈

be和fe是卡死,没有实际挂掉

升级后,当前,还会出现IO很高,然后be卡死的问题?

是的,加大了fe内存,调整了参数,还是存在

怎么判断的BE/FE卡死了?

granfa监控报警

一些请求响应时间很长

BE CPU占用高吗?

2.3会存在误报BE挂掉的问题

不高 , 比较低; 主要是 请求响应慢,导致业务存在问题

FE jvm 的内存调到多大了

是否有这种concurrent mode failure 日志,fe.gc.log