使用窗口函数First_value() over(partition by order by ) 导致be挂掉

【业务影响】 集群be挂了,导致业务报错
【StarRocks版本】2.3.12
【集群规模】例如:3fe(1 follower+2observer)+6be(fe与be混部)
【机器信息】88C/500G/2.5万兆
【联系方式】starrocks社区群1 - invert
执行sql:


查询表 test.option_underlying_delta

be.out日志

be节点挂掉出现core文件
1eaf440853c4e3f7be807cc18f4f493
集群监控


文本的堆栈信息
query_id:fb07d2cd-4e09-11ee-969C-9c69b4617b10,fragment instance:fb07d2cd-4e09-11ee-969C-9c69b4617b1b
** Aborted at 1694151540 (unix time) try “date -d @1694151540” if you are using GNU date ***
0x28e14a3ZN14pdqsort detail12pdgsort loopIN9gnu cxx17-normal iteratorIPN9starrocks10vectorized17InlinePermuteltIRKS6 SM E SA EESF RKbPKNS4 6ColumnEbRT RS8 ThSahEESH St4pairIiiEbmPmEUlSH ST E0 Lb0EEEVSP SH SH ST b.isra.0
*** SIGSEGV (@0x10d38b20) received by PID 46347 (TID x7fe75c56700) from PID 18446744872963694592; stack trace: ***
0x41b9ae2 google::(anonymous namespace)::FailureSignalHandler()
0x7f6f4c3ea630 (unknown)
0x28e14a3 ZN14pdgsort detail12pdgsort loopIN9 gnu xx17 normal iteratorIPN9starrocks10vectorized17InlinePermutelt1RKS6 SM E SA EESF RKbPKNS4 6ColumnEbRT0 RS8 IhSahEESH St4pairIiiEbmPmEUlSH ST E0 Lb0EEEVSP SH SH ST ib.isra.0
0x294f0Be starrocks::vectorized::ColumnSorter::do visit<>
0x294f336 starrocks::ColumnVisitorAdapter<>::visit()0x1c1946fstarrocks::vectorized::ColumnFactory<>::accept()
0x2947dd8 starrocks::ColumnVisitorAdapter<>::visit()0x25e7adcstarrocks::vectorized::ColumnFactory<>::accept()
0x28cd8ce starrocks::vectorized::sort and tie column()
0x28ce44d starrocks::vectorized::sort and tie columns()
6x2850791 starrocks::vectorized::ChunksSorterFullSort::partial sort()
0x2851a6c starrocks::vectorized::ChunksSorterFullSort::update()
6x29ae418 starrocks::pipeline::PartitionSortSinkOperator::push chunk()
6x29d3034 starrocks::pipeline::PipelineDriver::process()
6x29c8f3e starrocks::pipeline::GlobalDriverExecutor:: worker thread()
6x22283e9 starrocks::ThreadPool::dispatch thread()
6x2223f9a starrocks::thread: :supervise thread()
0x7f6f4c3e2ea5 start thread
0x7f6f4b9fdb0d __clone
6x8(unknown)

fb07d2cd-4e09-11ee-969C-9c69b4617b10 请通过这个query_id 到查询连接的fe.audit.log 确认下是否问题sql为该sql.



这是完整的sql ,
堆栈关键错误信息一样如下

上面写的是,单独只拿select 那块 出来排查执行又 报问题的,

这个SQL,发下explain costs

可以加个微信,找个时间远程看下,不太确定是不是已经修复的问题

sql:

(扫描全部分区)



我的微信: starrocks社区群1 - invert ,多谢

按天分区查询写入的sql:


explain:




问题背景描述:
之前发的查所有分区的sql 是 一查就出问题; 这个只查某天分区的sql ,是运行一段时间后,be节点就开始挂了(我们这边的现象是从上周四下午17点开始执行这个按天分区查询的sql ,一直运行到周五凌晨2点 be节点就开始挂掉 )
集群监控:

已排查定位到具体原因: 读取的表中有double类型字段中存在大量的 NaN 字符串 值 导致;