集群内存突然飙高,如果快速定位到是哪个操作导致的

【详述】一个给很多人一起使用的集群,某个用户执行了一个大的导入操作导致机器内存占满,导致其他人的查询或者导入报错mem exceed limit, 如何快速定位到具体是哪个load任务占用了内存

http://be_ip:8040/mem_tracker

1.定位be哪类任务占用内存较高:curl -XGET -s http://BE_IP:BE_HTTP_PORT/metrics | grep “^starrocks_be_.*_mem_bytes|^starrocks_be_tcmalloc_bytes_in_use”
2.定位占用内存较多的查询:be.INFO中搜索 PeakMemoryUsage 并进行排序,找到大的的结果对应的 fragment_id,然后在be.INFO中搜索 fragment_id 找到对应的 query_id,然后拿着 query_id 在 fe.audit.log 中查到对应的sql;定位慢查询:grep ‘slow_query’ fe.audit.log | cut -d ‘=’ -f 6 | cut -d ‘|’ -f 1 | sort -g

如果是导入(starrocks_be_load_mem_bytes)占用的内存高呢,可以怎么排查呢

我们也是Stream Load大量导数导致集群不稳定,貌似没办法排查,也没有监控。