关于BE资源空闲,任务查询慢

【详述】BE上的资源很空闲,但是查询任务会偶发性的出现长时间查询如:


【背景】有load insert大任务执行后出现该问题
【业务影响】业务进行查询时会出现超时问题
【是否存算分离】否
【StarRocks版本】3.1.4
【集群规模】1fe(1 follower)+3be(fe与be混部)
【机器信息】64C/512G/万兆
【联系方式】社区群17-归-StarRocks3.1.4
【附件】

  • fe.log/beINFO/相应截图
  • 慢查询:

看看还能不能找到这个profile文件,发一下profile,看看查询在哪里卡主了

这个是对应的profile
profile-49e6.txt (33.1 KB)

我看profile中主要是卡在Pending、NetworkTime、WaitTime这些时间,也就是说数据已经查到了,但是返回回来的时候卡住了?BE中内网万兆网,cpu还剩95%,内存还有400+G,并且其它服务正常运行,并没有发现网络异常

看profile中 networktime 时间比较久,主要是 min 和max 差的比较多,看下3个服务器都是正常的么

导入任务是查询的这个表的导入任务么,只有这个表查询会出现这个问题么,表是主键模型表么

BE服务器资源空闲,除了这张表,其它的表也会很卡,这张不是load的表,目前使用的都是明细模型

网络流量还有带宽相关的监控有么

内网带宽是万兆网
这是hadoop12的网络流量监控
image
这是hadoop11的网络流量监控
image
这是hadoop9的网络流量监控
image

有网络时延的监控吗?或者可以独立测试一下网络时延,看看是否稳定。从profile上看的话,应该就是网络传输时延很大,__MAX_OF_NetworkTime: 30s800ms。这个时间是纯网络时间,不包括收发两端的其他处理时间。

3.1.4版本的有办法限制BE中可使用的带宽吗,目前也是遇到了带宽瓶颈问题,影响整个集群

1赞

前面说错了,内网使用的是千兆网

没有方法可以直接限制使用带宽,建议万兆网部署 部署前提条件 | StarRocks