StarRocks其中一个be磁盘被用满，而其他be磁盘则剩余很多

JerryLiu · 2023年08月11日 02:34

【详述】StarRocks有3个fe节点和3个be节点，其中1个be节点的磁盘接近用满，另外2个be节点的磁盘则剩余很多，状态正常，3个fe节点状态也正常。
【背景】前一晚逐个给be做过服务器规格变更（升内存，降CPU）。
操作顺序是：stop be --> 变更be服务器规格 --> start be，待变更规格后的be正常接入到集群后，依次再变更其他be节点的服务器规格。
【业务影响】由于其中1个be的磁盘满了，导致数据同步中断，导不进数据到StarRocks。
【StarRocks版本】v3.0.4
【集群规模】3 fe（1 leader + 2 follower）+ 3 be
【机器信息】3个be均是: 4vCPU+32G内存
【附件】
– be.Warning日志截图：

– 用满磁盘的be的磁盘使用情况:

– 另外两个未用满磁盘的be磁盘使用情况：

– 用满磁盘的be的 storage 目录里面的分布占用大小：

– 补充下表结构的配置信息：
ENGINE=OLAP
PRIMARY KEY(sid, created_at, id)
PARTITION BY date_trunc(‘month’, created_at)
DISTRIBUTED BY HASH(sid)
PROPERTIES (
“replication_num” = “3”,
“in_memory” = “false”,
“storage_format” = “DEFAULT”,
“enable_persistent_index” = “true”,
“replicated_storage” = “true”,
“compression” = “LZ4”
);

yuchen1019 · 2023年08月10日 12:28

您好您这个是直接部署的3.0.4的新集群吗？

yuchen1019 · 2023年08月10日 12:57

这个节点是fe主节点吗然后您在帮忙确认下 be下的 bdb和image文件有多大

夏天12 · 2023年08月10日 13:28

遇到一模一样的问题，好像一直都有这种倾斜只是有时候比例不大

JerryLiu · 2023年08月11日 02:13

是从2.5升级到3.0.4的

JerryLiu · 2023年08月11日 02:18

是其中某一个be节点，还有bdb和image文件是在哪呢？没找到这两个文件…

JerryLiu · 2023年08月11日 02:21

而且更奇怪的是，我的磁盘容量一扩容，没多久就又被干满了，更关键的是，我都已经把所有的数据同步都给停了，已经不再导数据到SR里了，磁盘一扩容就被干满…不知道是不是bug。

JerryLiu · 2023年08月11日 02:43

其实我有个疑问，有没有可能是查询导致的，就是当查询过程中内存不够用的时候，将查询结果的一部分进行落盘？

夏天12 · 2023年11月23日 04:09

可能是bug, 虽然出现的几率低
你在fe里面加上下面的参数:
#磁盘使用率之间相差大于0.03(百分之三)开始均衡
tablet_sched_balance_load_score_threshold = 0.03
tablet_sched_balance_load_disk_safe_threshold = 0.05
#fe 回收站清理的间隔,1个小时
catalog_trash_expire_second = 3600
#be 回收站清理的间隔,1个小时
trash_file_expire_time_sec = 3600

然后重启fe, be, 让集群尽快均衡并干掉回收站把指标追平

JerryLiu · 2023年08月11日 06:30

#1. 是不是每个fe和be节点都需要加上以上配置？
#2. 你加完这些之后，是不是有改善了？

yuchen1019 · 2023年08月11日 08:33

您创建表都是单副本的表吗？

JerryLiu · 2023年08月11日 09:37

都是3副本表：“replication_num” = “3”

JerryLiu · 2023年08月17日 03:18

请教下，这些参数调优，官网对这些参数有介绍么？我从官网上似乎没找到

JerryLiu · 2023年08月17日 03:40

对了，你们的大表会不会加这个参数呢？
“enable_persistent_index” = “true”

夏天12 · 2023年08月20日 14:12

我们也有几百T的分区表，不加