集群扩容BE节点后,flink写入报错

为了更快的定位您的问题,请提供以下信息,谢谢
【详述】12月18日 20点左右分两次添加了4台64C256G的BE节点,19日凌晨01:30 flink写入任务报错
【背景】集群扩容
【业务影响】下游查询出错
【是否存算分离】否
【StarRocks版本】例如:2.5.15
【集群规模】3fe(1 follower+2observer)()+8be + 新4BE
【机器信息】fe 8C32G fe启动分配内存24G BE 64C256G
【表模型】
【导入或者导出方式】Flink
【联系方式】18513585377 yuesr@163.com
【附件】

10.176.227.63,这个be上面,拿下这个tablet的日志,grep 9271976 be.INFO*>9271976.txt

9271976.txt (36.8 MB)

我们19号早晨重启FE之后,写入恢复,master 切换,以下是jvm thread监控

有抓到fe的jstack么

grep -E "compaction(.)9271976" be.INFO > 9271976_compaction.txt

连接leader fe,show tablet 9271976,然后执行下detailcmd对应的命令结果

没有抓到

show_backends.csv (3.0 KB) show_proc.csv (758 字节) show_tablet_9271976.csv (196 字节)

@U_1690376874492_6658 Hi compaction日志当时有保留吗?

有什么关键字吗,我过滤一下,be.info应该是已经被清理了

又看了下日志,应该和compaction无关,我再定位下具体原因

@U_1690376874492_6658 18号和19号,fe的日志还有吗 ?有的话发一下哈

归档.zip (38.6 MB)

@U_1690376874492_6658 发来的日志是fe leader的日志吗,感觉有问题呢

@U_1690376874492_6658 问题定位到了,应该是扩容触发了balance, 然后触发了fe死锁,这个问题已经在2.5.15之后的版本修复了,建议升级下版本

老师,能告知下定位问题的日志块和定位的方式吗?还有这个问题影响的版本