LZ4不压缩

为了更快的定位您的问题,请提供以下信息,谢谢
【详述】使用LZ4压缩的数据,大约50亿行,135列。单备份,占磁盘1.6TB左右,这是正常的吗?因为Pinot集群有一摸一样的表,pinot表是没有压缩的,但是占磁盘比SR压缩的还少。
【背景】无任何额外操作
【业务影响】
【是否存算分离】否
【StarRocks版本】3.3.0
【集群规模】例如:3fe(3 follower)+12be(fe与be不混部)
【机器信息】CPU虚拟核/内存/网卡,例如:32C/128G/万兆
【联系方式】hongkxu@cisco.com
【附件】

  1. 看下这个表 建表语句中 副本个数,是3还是1
    PROPERTIES (
    “replication_num” = “”
    )
  2. 找这个表任意几个 tablet id,show tablet $tablet_id 看下versioncount个数,是否做过compaction
  3. 如果第2步 表没有compaction,可以等 表中没有数据导入 一段时间后 再次 show data 查看数据量
1赞

副本数量是1,确认过了。show tablet table看下version数挺大,肯定做过compaction了。
我是思科大数据部门的,方便加你一下微信吗?可以约个会讨论下 @Doni

上面截图不太完整,后面部分的也需要截上
主要看 versioncount 字段的值,这个是未合并的版本数,打开 compactionstate 字段的 url 查看compaction 的状态

好的,我再查看下

HI @Doni, versioncount是1,我通过compact staus抽查了几个tablet,发现rowset都是1,不需要进行compact。这种情况说明这就是SR的真实表现吗?

Hi @Doni, 我进一步补充下,我们共21个parition,我发现每个parition都是19个tablet,工作日每天在20M,7GB左右。周末两天每个都在2M行,700MB左右,说明compact的状态应该没问题的吧

versioncount 为1的话 就是已经compaction过的,这个表是主键模型表么,是否开启了索引落盘

不是主键模型。是明细表。

我进一步使用zstd压缩,效果依然不理想,大约是0.68的lz4的磁盘使用。跟pinot的磁盘占用几乎一样。我在doris测试的只占1/5,开启行列混存也仅仅1/3。SR和doris的底层架构很类似,这让我很迷惑

方便发下这几种的建表 以及 show data 的结果么

加一下微信share给你可以吗,我这是真实的业务建表,不方便直接发到公网

私信你了

收到了,已经发送请求