Starrocks be全挂

【StarRocks版本】2.2.2
【集群规模】例如:4fe(3 follower+1observer)+17be
BE陆续挂掉了。先是挂了6台,重启脚本立马拉起。然后过了2分钟又挂了13台(包含之前的机器,也有新增的),脚本立马拉取后。再过20多秒又挂了几台(和之前有重叠,又有新的机器)。然后又过了1分钟,又挂了11台。
整体持续了4分钟才稳定下来。所有17台be都涉及至少挂了一次。有的be重启了多次,有的只重启了一次。
每次重启be.out都有重复的日志。

  1. be.out
    挂掉的机器的be.out都有这样的日志:
    其中重启一次的be.out详情:
    2023-02-10-69-be.out (4.2 KB)
    重启多次的be详情:
    2023-02-10-44-be.out (9.5 KB)

  2. be.WARING
    有两台broker挂了两个月,一直没重启,也没有影响。
    在be.WARNING中,这两个月存在这样的报错,其中10.5.1xx.xxx:8001是挂掉broker的ip(可能不关事情,不过还是写出来):
    W0102 11:26:15.374606 18026 broker_mgr.cpp:76] Create broker client failed. broker=TNetworkAddress(hostname=10.5.1xx.xxx, port=8001), status=Couldn’t open transport for 10.5.1xx.xxx:8001 (socket open() error: Connection refused)

这个问题已经Fix了,升级到2.2.的最新就行

使用 grouping sets 导致的

1赞