请问metric: starrocks_fe_query_latency_ms 具体是如何统计的呢?

【详述】当前我们做了starrocks_fe_query_latency_ms{quantile=“0.99”}的报警,不过发现经常报警的一个case是:一个大query执行完毕之后就没有任何请求,对应fe的starrocks_fe_query_latency_ms{quantile=“0.99”}始终是一个很大的值,持续数分钟,那么请问metric: starrocks_fe_query_latency_ms 具体是如何统计的呢?统计频率是?

另外执行一个大query之后,后面没有任何请求,是不是对应的latency是不是应该为0ms呢?

如下图:

您好您指的查询延迟的指标项 是15s采集一次的 这个我理解是会根据大持续查询的时长而展示的graph,您那边当前对应的监控值是如何配置的 , starrocks_fe_query_latency_ms推荐是按照最近15天的最大查询耗时 的 150%做通知值,200%、300%做更高级别的告警。

如果 查询耗时小于 50ms,可以按 2 倍做 notice 报警。

我们prometheus是每15秒从be节点scrape starrocks_fe_query_latency_ms这个metric的, 上面的图就是在prometheus查询得到的。
我的意思是be节点自身是如何计算starrocks_fe_query_latency_ms这个metric的,或者starrocks_fe_query_latency_ms这个metric的详细含义是什么。比如是计算过去多长时间点的99线。

starrocks_fe_query_latency_ms这个的含义是过去15s内,从这个FE上发起的查询(已经结束的)的平均耗时

按照这个说法,那一个大query执行之后再无其他query后,理论上99线的starrocks_fe_query_latency_ms应该很快变成0ms吧?而不是很大的数值持续数分钟