【详述】因四台机器中的一台机器上的一块盘损坏,导致be进程假死状态,系统上能查到be进程且alive显示存活状态,但是整个集群无法提供truncate服务,仅能提供读写服务,尝试通过stop_be.sh停止be进程时,进程无法关闭,遂用kill命令强行杀掉be进程后,be进程变成了僵尸进程,僵尸进程只能通过重启操作系统杀掉,剩下的机器仍然无法提供truncate服务。这种情况只能等待磁盘修复后,然后重启系统才能解决,所以这段时间sr集群就失去了高可用的功能。
【背景】集群中有一块盘损坏
【业务影响】集群无法truncate表,导致上游无法向sr进行推数,清洗作业无法运行
【是否存算分离】否
【StarRocks版本】3.0.5
【集群规模】3fe + 4be(fe与be混部)
【机器信息】48C/270/万兆
【联系方式】 社区群3:阿坚
【附件】磁盘损坏过三次,就出现了三种上述现象。
这个be上有多块盘 三副本的话,可以把这块坏盘的路径从 be.conf的storage_root_path 中删除,然后重启be
问题是每次be进程关不掉,变成了僵尸进程存在那里,只能重启操作系统才能消灭僵尸进程,如果我把路径从配置中删除的话,再重启不会和僵尸进程冲突吗?