整个数据库卡住

版本2.5.1
3台FE:36,37,38机器
7台BE:32-38
配置:32c,64g,3T*3机械硬盘
我正在通过自研的程序导入数据,用的streamload,每次提交5w条数据,正常6秒写入成功。然后我通过dbeaver查看某张表的数据,发现卡住了,如下图
image
此时streamload也卡住了,因为streamload的超时时间我设置的很高,所以卡了半个小时以后提交成功了,这半个小时里整个数据库什么都做不了。



我的集群没什么负载,只有那一个streamload在跑,每块硬盘写入速度300MB/S

所有FE跟BE看上去都正常,心跳也都正常,也没什么错误日志
我重启3个FE后依旧如此
我尝试通过官方脚本停止BE,执行命令后BE变成了僵尸进程
image
日志中经常有如下的告警,不知这个告警是否重要

当我同时开启4个streamload时也会像上面这个过程一样卡住,尝试多次都这样,现在这个情况没法用啊,再次强调:集群没什么负载

我之前有个集群,2.0.0版本,SSD,万兆网卡,运行半年多没出过任何问题,2.5.1不稳定吗?

是不是开了Swap?

没开,特意配置了vm.swappiness=0

publish timeout

加我个微信,我们详细聊下?lxhhust350

3T的硬盘是由3块1T的硬盘,通过pvcreate,vgcreate,lvcreate那些命令合并的,格式ext4

我把2.5.1版本都停了,重新装了2.0.9版本,依旧是上述症状。

谢谢,周末了先不加微信了,下周解决不了再加您吧。
我去定位transaction,发现如下日志,add batch time高达1290s:


后来问题复现,我抓紧看了一下当时的系统资源,如下:

几个cpu wait100%。原因是/dev/vdd磁盘busy100%,但是通过iotop等命令并没有发现IO很高的进程。不清楚是starrocks写入数据导致磁盘busy100%,还是磁盘busy100%导致了starrocks写数据卡主。另外一块磁盘不是starrocks的存储盘,但是也出现过busy100的情况。磁盘busy100%的时候我试着往磁盘写入一个1GB的文件,成功了,并没觉得慢。似乎这个磁盘的异常只对starrocks有影响。7台机器每次都是一台机器的一块硬盘有上述情况,下次就换成另一台机器,随机的。
都是虚机,我不清楚磁盘底层对应的物理磁盘是否会被别的虚机使用?别的虚机可能在做一些高IO操作?
每次卡主20-30分钟后磁盘就正常了,starrocks也就能写入数据了。但是其他服务不怎么受影响,就starrocks影响极其严重,这我就百思不得其解了。