请问metric: starrocks_fe_query_latency_ms 具体是如何统计的呢？

nodba · 2023年08月30日 03:20

【详述】当前我们做了starrocks_fe_query_latency_ms{quantile=“0.99”}的报警，不过发现经常报警的一个case是：一个大query执行完毕之后就没有任何请求，对应fe的starrocks_fe_query_latency_ms{quantile=“0.99”}始终是一个很大的值，持续数分钟，那么请问metric: starrocks_fe_query_latency_ms 具体是如何统计的呢？统计频率是？

另外执行一个大query之后，后面没有任何请求，是不是对应的latency是不是应该为0ms呢？

如下图：

yuchen1019 · 2023年08月30日 08:26

您好您指的查询延迟的指标项是15s采集一次的这个我理解是会根据大持续查询的时长而展示的graph，您那边当前对应的监控值是如何配置的， starrocks_fe_query_latency_ms推荐是按照最近15天的最大查询耗时的 150%做通知值，200%、300%做更高级别的告警。

如果查询耗时小于 50ms，可以按 2 倍做 notice 报警。

nodba · 2023年08月30日 09:45

我们prometheus是每15秒从be节点scrape starrocks_fe_query_latency_ms这个metric的，上面的图就是在prometheus查询得到的。
我的意思是be节点自身是如何计算starrocks_fe_query_latency_ms这个metric的，或者starrocks_fe_query_latency_ms这个metric的详细含义是什么。比如是计算过去多长时间点的99线。

gengjun · 2023年08月31日 03:10

starrocks_fe_query_latency_ms这个的含义是过去15s内，从这个FE上发起的查询(已经结束的)的平均耗时

nodba · 2023年08月31日 09:16

按照这个说法，那一个大query执行之后再无其他query后，理论上99线的starrocks_fe_query_latency_ms应该很快变成0ms吧？而不是很大的数值持续数分钟