lake_enable_batch_publish_version打开非常容易触发cn节点oom

jinsx · 2024年03月26日 03:06

【详述】
现象：
1、发现有张表的spark任务stream load导入数据时容易触发cn节点oom；
2、这张表离线导入有几十G(一天3-5亿条)，spark 任务8个并行度，一次最大导入50万条(或500m)的最小值，按道理计算下来内存占用不会超高4G；
3、平时这张表导入约2小时可以完成，昨天出现导入一直失败，并将cn节点从3扩到5，仍未解决cn节点oom问题(只是其中1-2个cn节点会oom重启)；
4、后将cn节点的配置enable_new_publish_mechanism = true，lake_enable_batch_publish_version = true删除，测试后可以正常导入，未触发cn节点的oom。(观察了半天还未触发oom，我可以再观察下)

问题：
cn节点的配置enable_new_publish_mechanism = true，lake_enable_batch_publish_version = true可能是
导致cn节点oom的原因？

在上面的测试中因为cn pod有删除和添加，还遇到的fe异常：
spark导入端错误日志如下：
Couldn’t open transport for starrocks-prod-fe-1.starrocks-prod-fe-search.starrocks-prod.svc.cluster.local:9020 (socket open() error: Connection refused)
{“TxnId”:-1,“Label”:“skye_micro_access_log_day69eb4f8c-817b-4907-a283-b6d0fc591820”,“Status”:“Fail”,“Message”:“Couldn’t open transport for starrocks-prod-fe-1.starrocks-prod-fe-search.starrocks-prod.svc.cluster.local:9020 (socket open() error: Connection refused)”,“NumberTotalRows”:0,“NumberLoadedRows”:0,“NumberFilteredRows”:0,“NumberUnselectedRows”:0,“LoadBytes”:0,“LoadTimeMs”:0,“BeginTxnTimeMs”:0,“StreamLoadPlanTimeMs”:0,“ReadDataTimeMs”:0,“WriteDataTimeMs”:0,“CommitAndPublishTimeMs”:0}
将fe-1 pod删除后，fe-1 pod重新创建后正常。
这个fe-1异常遇到2次。

【背景】存算一体集群，迁移到存算分离集群后，cn节点出现多次oom(内存超了触发了系统的oom killer)
【业务影响】有影响，可以规避
【是否存算分离】是
【StarRocks版本】3.2.4
【集群规模】3fe + 3cn
【机器信息】fe(4c 8g), cn (16c 27g)
【联系方式】微信手机同号18368891160

【附件】

jinsx · 2024年03月26日 10:03

各位大佬，这个问题有同学看吗

Doni · 2024年03月27日 09:18

oom前后的 cn.INFO日志帮忙发一下

jinsx · 2024年03月28日 05:48

日志有点不好提供哈，因为都是采集到loki的，没法下载整个日志文件。
不过自己又观察了两天，删除配置enable_new_publish_mechanism = true，lake_enable_batch_publish_version = true后，cn节点确实很稳定，没有出现oom的情况。