存算一体2.5.10 集群升级到3.1.5后磁盘空间显著上涨

为了更快的定位您的问题,请提供以下信息,谢谢
【详述】问题详细描述
【背景】对存算一体集群进行升级,从2.5.10 逐步升级到3.1.5 后观察监控发现磁盘使用空间上涨比较快,感觉可能有问题
【业务影响】
【是否存算分离】
【StarRocks版本】例如:3.1.5
【集群规模】例如:3fe(1 follower+2observer)+5be(fe与be混部)
【机器信息】CPU虚拟核/内存/网卡,例如:48C/64G/万兆
【联系方式】为了在解决问题过程中能及时联系到您获取一些日志信息,请补充下您的联系方式,例如:社区群3-杨荣
【附件】


从近14天的磁盘监控来看,在12月14号升级后的3天时间涨了近10%左右的磁盘空间,前11天2.5.10 版本才涨了1% 的磁盘空间

image
找了个节点看了下,trash 的数据很多没有回收掉

curl http://<BE_IP>:<BE_HTTP_PORT>/varz 看下当前这个参数的值 trash_file_expire_time_sec

确认下升级后业务有没有变更,比如有做过较多的 truncate 或者 drop 等删除数据的操作

没有调整过这个参数,看了下这个值2.5.10 和 3.1.5 都是默认的3天
业务上也没有调整。

上涨的10%磁盘空间 跟 trash目录的大小是匹配的么

一个盘有3.5T, 10% 的话应该在350G ,但是不清楚升级前trash 目录大小是不是600G的,不好对比

trash目录存放的drop或者truncate的数据,如果没有误删不需要恢复数据的话,可以把trash目录清掉后,看下磁盘占用跟升级前的对比

我再观察几天磁盘空间的情况吧,不敢直接删trash

我们有个集群从3.1.6 回滚到2.5.10 后发现磁盘降了很多,3.1.6的时候磁盘的空间使用呈现锯齿状
2.5.10 的磁盘利用率是平的