【详述】问题详细描述
从4.11号到4.17号(截止到发帖时,几乎每天都会发生,其中4.15号没有发生),10.21.36.152和10.21.36.153两个fe节点,每个节点每天自动退出fe服务一次,退出之前是master,每天发生2次,master在10.21.36.152和10.21.36.153两个节点之间切换。集群一共有3台fe节点,另一台fe没事。
【背景】做过哪些操作?
【业务影响】
当发生fe服务自动退出时,部分flink实时导入任务会异常退出,有如下报错:
【StarRocks版本】例如:1.18.2
select current_version():
show frontends;
show backends;
【集群规模】例如:3fe(1 follower+2observer)+5be(fe与be混部)
3fe(3 follower)
4be
混布
【机器信息】CPU虚拟核/内存/网卡,例如:48C/64G/万兆
10.21.36.153、10.21.36.151、10.21.36.152三台be为集群创建时就有的
10.21.46.21为4.7号新扩容的be服务
10.21.36.153:188G内存,3.6T12磁盘容量,raid0,万兆卡,48c
10.21.36.151:188G内存,3.6T12磁盘容量,raid0,万兆卡,48c
10.21.36.152:188G内存,3.6T12磁盘容量,raid0,万兆卡,48c
10.21.46.21:188G内存,3.6T12磁盘容量,raid5,万兆卡,48c


【联系方式】社区群5-不惑
【附件】
每次fe自动退出重启前后的fe.log的日志
fe_stop.log (41.7 KB)
4.17日凌晨 2023-04-17 02:45:17,867 10.21.36.152节点发生自动退出的前后日志
fe.zip (43.7 MB)