【业务影响】 集群be挂了,导致业务报错
【StarRocks版本】2.3.12
【集群规模】例如:3fe(1 follower+2observer)+6be(fe与be混部)
【机器信息】88C/500G/2.5万兆
【联系方式】starrocks社区群1 - invert
执行sql:
查询表 test.option_underlying_delta
be.out日志
be节点挂掉出现core文件

集群监控
【业务影响】 集群be挂了,导致业务报错
【StarRocks版本】2.3.12
【集群规模】例如:3fe(1 follower+2observer)+6be(fe与be混部)
【机器信息】88C/500G/2.5万兆
【联系方式】starrocks社区群1 - invert
执行sql:
文本的堆栈信息
query_id:fb07d2cd-4e09-11ee-969C-9c69b4617b10,fragment instance:fb07d2cd-4e09-11ee-969C-9c69b4617b1b
** Aborted at 1694151540 (unix time) try “date -d @1694151540” if you are using GNU date ***
0x28e14a3ZN14pdqsort detail12pdgsort loopIN9gnu cxx17-normal iteratorIPN9starrocks10vectorized17InlinePermuteltIRKS6 SM E SA EESF RKbPKNS4 6ColumnEbRT RS8 ThSahEESH St4pairIiiEbmPmEUlSH ST E0 Lb0EEEVSP SH SH ST b.isra.0
*** SIGSEGV (@0x10d38b20) received by PID 46347 (TID x7fe75c56700) from PID 18446744872963694592; stack trace: ***
0x41b9ae2 google::(anonymous namespace)::FailureSignalHandler()
0x7f6f4c3ea630 (unknown)
0x28e14a3 ZN14pdgsort detail12pdgsort loopIN9 gnu xx17 normal iteratorIPN9starrocks10vectorized17InlinePermutelt1RKS6 SM E SA EESF RKbPKNS4 6ColumnEbRT0 RS8 IhSahEESH St4pairIiiEbmPmEUlSH ST E0 Lb0EEEVSP SH SH ST ib.isra.0
0x294f0Be starrocks::vectorized::ColumnSorter::do visit<>
0x294f336 starrocks::ColumnVisitorAdapter<>::visit()0x1c1946fstarrocks::vectorized::ColumnFactory<>::accept()
0x2947dd8 starrocks::ColumnVisitorAdapter<>::visit()0x25e7adcstarrocks::vectorized::ColumnFactory<>::accept()
0x28cd8ce starrocks::vectorized::sort and tie column()
0x28ce44d starrocks::vectorized::sort and tie columns()
6x2850791 starrocks::vectorized::ChunksSorterFullSort::partial sort()
0x2851a6c starrocks::vectorized::ChunksSorterFullSort::update()
6x29ae418 starrocks::pipeline::PartitionSortSinkOperator::push chunk()
6x29d3034 starrocks::pipeline::PipelineDriver::process()
6x29c8f3e starrocks::pipeline::GlobalDriverExecutor:: worker thread()
6x22283e9 starrocks::ThreadPool::dispatch thread()
6x2223f9a starrocks: :supervise thread()
0x7f6f4c3e2ea5 start thread
0x7f6f4b9fdb0d __clone
6x8(unknown)
fb07d2cd-4e09-11ee-969C-9c69b4617b10 请通过这个query_id 到查询连接的fe.audit.log 确认下是否问题sql为该sql.
这个SQL,发下explain costs
可以加个微信,找个时间远程看下,不太确定是不是已经修复的问题
我的微信: starrocks社区群1 - invert ,多谢
按天分区查询写入的sql:
已排查定位到具体原因: 读取的表中有double类型字段中存在大量的 NaN 字符串 值 导致;