【详述】sql经常超时-超过60秒, 重启一个be节点后可以短时恢复
【背景】之前发现部分主键模型的数据倾斜,导致版本过多,然后这个be节点出现了oom。 重建这些主键模型的表后,开始出现sql查询超时(超过60s)
【业务影响】
【StarRocks版本】2.4.2
【集群规模】3fe+3be(fe与be混部)
【机器信息】 16 vCPU 128 GiB / 16 vCPU 128 GiB / 24 vCPU 192 GiB (问题节点)
【附件】
be.WARNING -
W0108 10:54:46.444975 17051 tablet_sink.cpp:975] close channel failed. channel_name=NodeChannel[703161-10007], load_info=load_id=ab815de3-8eff-11ed-8751-00163e17f8f0, txn_id: 37711183, parallel=1, compress_type=2, error_msg=[E1008]Reached timeout=60000ms @10.6.2.247:8060
W0108 10:54:46.444978 17051 tablet_sink.cpp:975] close channel failed. channel_name=NodeChannel[703161-10007], load_info=load_id=ab815de3-8eff-11ed-8751-00163e17f8f0, txn_id: 37711183, parallel=1, compress_type=2, error_msg=[E1008]Reached timeout=60000ms @10.6.2.247:8060
W0108 10:54:46.444981 17051 tablet_sink.cpp:975] close channel failed. channel_name=NodeChannel[703161-10007], load_info=load_id=ab815de3-8eff-11ed-8751-00163e17f8f0, txn_id: 37711183, parallel=1, compress_type=2, error_msg=[E1008]Reached timeout=60000ms @10.6.2.247:8060
【背景】之前发现部分主键模型的数据倾斜,导致版本过多,然后这个be节点出现了oom。 重建这些主键模型的表,并删除旧的表。 之后be的oom问题得到了解决, 但是开始出现sql查询超时(超过60s)
同步开始出现的异常, 创建tablet超时
fail to create tablet: timed out. unfinished replicas(3/5): 5497506(10.6.2.247) 5497522(10.6.2.247) 5497510(10.6.2.247) timeout=5s
您先调大tablet_create_timeout_second再观察下,另外麻烦您提供下fe leader节点的日志,要这个报错时间点附近的。每次查询超时都是报的同一个(您重启的)be吗?
重新加入了一个be节点, 暂时恢复了
请问您之前重启的那个be呢?现在还会有sql查询超时情况吗?
新增be节点后, 不会有了
2023.1.10
尝试移除故障的be节点, 运行一整天, 观察
2023.1.11
老的2个be节点, 新增的1个be节点, 组成的三个be节点, 运行正常
基本可以推断, 是主键模型的表设计hash分区不均衡导致版本过多导致的异常. 后续be节点本身的异常很可能也于此问题有关, 已通过删除问题be节点, 重新加入新节点解决了.