StarRocks其中一个be磁盘被用满,而其他be磁盘则剩余很多

【详述】StarRocks有3个fe节点和3个be节点,其中1个be节点的磁盘接近用满,另外2个be节点的磁盘则剩余很多,状态正常,3个fe节点状态也正常。
【背景】前一晚逐个给be做过服务器规格变更(升内存,降CPU)。
操作顺序是:stop be --> 变更be服务器规格 --> start be,待变更规格后的be正常接入到集群后,依次再变更其他be节点的服务器规格。
【业务影响】由于其中1个be的磁盘满了,导致数据同步中断,导不进数据到StarRocks。
【StarRocks版本】v3.0.4
【集群规模】3 fe(1 leader + 2 follower)+ 3 be
【机器信息】3个be均是: 4vCPU+32G内存
【附件】
– be.Warning日志截图:

– 用满磁盘的be的磁盘使用情况:

– 另外两个未用满磁盘的be磁盘使用情况:

– 用满磁盘的be的 storage 目录里面的分布占用大小:
image
image

– 补充下表结构的配置信息:
ENGINE=OLAP
PRIMARY KEY(sid, created_at, id)
PARTITION BY date_trunc(‘month’, created_at)
DISTRIBUTED BY HASH(sid)
PROPERTIES (
“replication_num” = “3”,
“in_memory” = “false”,
“storage_format” = “DEFAULT”,
“enable_persistent_index” = “true”,
“replicated_storage” = “true”,
“compression” = “LZ4”
);

您好 您这个是直接部署的3.0.4的新集群吗?

这个节点是fe主节点吗 然后您在帮忙确认下 be下的 bdb和image文件有多大

遇到一模一样的问题,好像一直都有这种倾斜 :joy:只是有时候比例不大

是从2.5升级到3.0.4的

是其中某一个be节点,还有bdb和image文件是在哪呢?没找到这两个文件…

而且更奇怪的是,我的磁盘容量一扩容,没多久就又被干满了,更关键的是,我都已经把所有的数据同步都给停了,已经不再导数据到SR里了,磁盘一扩容就被干满…不知道是不是bug。

其实我有个疑问,有没有可能是查询导致的,就是当查询过程中内存不够用的时候,将查询结果的一部分进行落盘?

可能是bug, 虽然出现的几率低
你在fe里面加上下面的参数:
#磁盘使用率之间相差大于0.03(百分之三)开始均衡
tablet_sched_balance_load_score_threshold = 0.03
tablet_sched_balance_load_disk_safe_threshold = 0.05
#fe 回收站清理的间隔,1个小时
catalog_trash_expire_second = 3600
#be 回收站清理的间隔,1个小时
trash_file_expire_time_sec = 3600

然后重启fe, be, 让集群尽快均衡并干掉回收站把指标追平

1赞

#1. 是不是每个fe和be节点都需要加上以上配置?
#2. 你加完这些之后,是不是有改善了? :joy:

您创建表都是单副本的表吗?

都是3副本表:“replication_num” = “3”

请教下,这些参数调优,官网对这些参数有介绍么?我从官网上似乎没找到

对了,你们的大表会不会加这个参数呢?
“enable_persistent_index” = “true”

我们也有几百T的分区表,不加