StarRocks2.5.5 K8s版本启动后频繁刷Invalid port 0日志

💬 StarRocks 用户问答

U_1683873691381_2300 2023年05月12日 06:49 #1

【详述】StarRocks2.5.5 K8s版本启动后频繁刷Invalid port 0日志
【背景】在K8s集群中采用helm安装
【业务影响】
【StarRocks版本】例如：2.5.5
【集群规模】例如：3fe（1 follower+2observer）+5be（fe与be混部）
【机器信息】CPU虚拟核/内存/网卡，例如：48C/256G/万兆
【联系方式】weijiasheng@189.cn，谢谢
【附件】

dongquan 2023年05月12日 07:34 #2

进程可以启动成功是吧，fe的网络配置是什么？BTW,3个fe节点的话建议是1leader + 2follower

U_1683873691381_2300 2023年05月12日 07:54 #3

现在看的应该是fe2启动报错，导致journalID=0，网络是calico日志如下：

lvlouisaslia 2023年05月12日 08:37 #4

是全新部署吗?

show frontends的输出可以文字贴出来, 能看得全.

U_1683873691381_2300 2023年05月12日 09:06 #5

是全新部署的

lvlouisaslia 2023年05月12日 09:58 #6

看上面, FE-2好像认为自己的LEADER. 应该是有问题的, 可以尝试把fe/meta/目录下所有数据删除, 再重建这个POD, 试试看能不能加回到FE集群里.

lvlouisaslia 2023年05月12日 09:59 #7

感觉像是starrockscluster集群之前用过, 删除重建了, 但之前FE的PVC数据没有清理, 导致节点以之前的残留meta数据启动, 状态不一致.

U_1683873691381_2300 2023年05月15日 01:01 #8

清除fe的数据，重启后，状态如下，请帮忙看下状态是否正常，特别是FE2的Join字段是true，别人都是false，然后请教一下join和helper代码的字段含义是什么，谢谢！

lvlouisaslia 2023年05月15日 01:15 #9

需要发一下fe-0的fe.log和fe-1的fe.log看看

U_1683873691381_2300 2023年05月15日 01:45 #10

felog.rar (137.2 KB)
日志如下，请帮忙分析，谢谢

lvlouisaslia 2023年05月15日 02:18 #11

可以重新发一下show frontends输出. 日志里当前的LEADER是fe-2, 与之前发的截图不一致.

lvlouisaslia 2023年05月15日 02:20 #12

可以mysql单独连接到每个FE节点, show frontends看一下, 看上去像是FE脑裂了, 三个FE不在同一个集群里.

U_1683873691381_2300 2023年05月15日 03:02 #13

1.fe0

2.fe1

3.fe2

4.fe2.log

lvlouisaslia 2023年05月15日 03:08 #14

从各个FE的show frontends信息上来看, 是脑裂了.

U_1683873691381_2300 2023年05月15日 03:12 #15

那请问下Join字段和Helper字段的含义是什么吗？

lvlouisaslia 2023年05月15日 03:16 #16

join表示是否成功加入集群, helper表示该节点是否可以做为help节点, 帮助未加入集群的节点获取集群信息加入到集群中.

U_1683873691381_2300 2023年05月15日 03:25 #17

脑裂问题，我找到问题了，应该是时间同步问题引起了，目前3台fe的状态都是一样的，mysql也能正常建表查询了，但是fe的日志还是频繁刷Receive packet header failed，请问正常吗？应该怎么处理

lvlouisaslia 2023年05月15日 03:26 #18

这个可以忽略, 是k8s上我们配置POD alive probe导致的. 后续会改成探测http port.

参见https://github.com/StarRocks/starrocks-kubernetes-operator/issues/47

京ICP备2022026421号-1