整个数据库卡住

U_1635821475237_3943 · 2023年03月1日 03:38

版本2.5.1
3台FE：36,37,38机器
7台BE：32-38
配置：32c,64g,3T*3机械硬盘
我正在通过自研的程序导入数据，用的streamload，每次提交5w条数据，正常6秒写入成功。然后我通过dbeaver查看某张表的数据，发现卡住了，如下图

此时streamload也卡住了，因为streamload的超时时间我设置的很高，所以卡了半个小时以后提交成功了，这半个小时里整个数据库什么都做不了。

我的集群没什么负载，只有那一个streamload在跑，每块硬盘写入速度300MB/S

所有FE跟BE看上去都正常，心跳也都正常，也没什么错误日志
我重启3个FE后依旧如此
我尝试通过官方脚本停止BE，执行命令后BE变成了僵尸进程

日志中经常有如下的告警，不知这个告警是否重要

当我同时开启4个streamload时也会像上面这个过程一样卡住，尝试多次都这样，现在这个情况没法用啊，再次强调：集群没什么负载

U_1635821475237_3943 · 2023年03月1日 03:40

我之前有个集群，2.0.0版本，SSD，万兆网卡，运行半年多没出过任何问题，2.5.1不稳定吗？

trueeyu · 2023年03月1日 06:54

是不是开了Swap？

U_1635821475237_3943 · 2023年03月1日 08:14

没开，特意配置了vm.swappiness=0

U_1635821475237_3943 · 2023年03月1日 08:26

publish timeout

trueeyu · 2023年03月1日 08:44

加我个微信，我们详细聊下？lxhhust350

U_1635821475237_3943 · 2023年03月3日 13:43

3T的硬盘是由3块1T的硬盘，通过pvcreate,vgcreate,lvcreate那些命令合并的，格式ext4

U_1635821475237_3943 · 2023年03月3日 13:52

我把2.5.1版本都停了，重新装了2.0.9版本，依旧是上述症状。

U_1635821475237_3943 · 2023年03月3日 23:47

谢谢，周末了先不加微信了，下周解决不了再加您吧。
我去定位transaction，发现如下日志，add batch time高达1290s：

后来问题复现，我抓紧看了一下当时的系统资源，如下：

几个cpu wait100%。原因是/dev/vdd磁盘busy100%，但是通过iotop等命令并没有发现IO很高的进程。不清楚是starrocks写入数据导致磁盘busy100%，还是磁盘busy100%导致了starrocks写数据卡主。另外一块磁盘不是starrocks的存储盘，但是也出现过busy100的情况。磁盘busy100%的时候我试着往磁盘写入一个1GB的文件，成功了，并没觉得慢。似乎这个磁盘的异常只对starrocks有影响。7台机器每次都是一台机器的一块硬盘有上述情况，下次就换成另一台机器，随机的。
都是虚机，我不清楚磁盘底层对应的物理磁盘是否会被别的虚机使用？别的虚机可能在做一些高IO操作？
每次卡主20-30分钟后磁盘就正常了，starrocks也就能写入数据了。但是其他服务不怎么受影响，就starrocks影响极其严重，这我就百思不得其解了。