【2.4.2版本两台BE宕机,supervisor 10个小时之后才重新拉起】

【详述】连续两天不同的BE节点宕机,配置了supervisor自动拉起,发现10个小时之后程序才被正常拉起,当时的CPU正常,但是升级2.4.2之后官方提供的grafana监控界面内存不能正常显示,没办法定位到当时的内存情况,请帮忙看一下问题。
【StarRocks版本】例如:2.4.2
【集群规模】例如:3fe(1 follower+2observer)+3be(fe与be混部)
be.out (204.8 KB)

看be.out,Crash了两次,第一次是个已知问题,正在修复。第二次,原因还在分析

麻烦提供下对应时间点的be.INFO日志,谢谢

E1221 17:27:18.488168 28969 delta_writer.cpp:110] Too many versions. tablet_id: 20952935, version_count: 2663, limit: 1000
E1221 17:27:18.519999 28924 delta_writer.cpp:110] Too many versions. tablet_id: 20952935, version_count: 2663, limit: 1000
基本上都是这些输出,另外有生成coredump有40G,没办法上传上来

还有日志记录里面怎么才能把年月日调出来,要不然好几天的日志都在一起就分辨不出来了

be又宕掉了,启动的时候打印这些信息,很长时间be都不可用
I1227 11:04:37.446249 24056 daemon.cpp:191] Current memory statistics: process(18646492552), query_pool(0), load(0), metadata(591325563), compaction(0), schema_change(0), column_pool(0), page_cache(0), update(0), chunk_allocator(0), clone(0), consistency(0)
W1227 11:04:38.929185 24131 mem_hook.cpp:255] large memory alloc: 1091865783 bytes, stack:
@ 0x36d807b malloc
@ 0x62f8845 operator new()
@ 0x4608a5b rocksdb::BlockFetcher::ReadBlockContents()
@ 0x45ee959 rocksdb::BlockBasedTable::MaybeReadBlockAndLoadToCache<>()
@ 0x45eedea rocksdb::BlockBasedTable::RetrieveBlock<>()
@ 0x46e1390 rocksdb::BlockBasedTableIterator::InitDataBlock()
@ 0x46e2e5d rocksdb::BlockBasedTableIterator::SeekImpl()
@ 0x450feed rocksdb::(anonymous namespace)::LevelIterator::Seek()
@ 0x4611e83 rocksdb::MergingIterator::Seek()
@ 0x449c811 rocksdb::DBIter::Seek()
@ 0x311f380 starrocks::KVStore::iterate_range()
@ 0x2f6b19c starrocks::TabletMetaManager::get_del_vector()
@ 0x2f9ce36 starrocks::TabletUpdates::_load_from_pb()
@ 0x2f9d9fb starrocks::TabletUpdates::init()
@ 0x2f47f1b starrocks::Tablet::_init_once_action()
@ 0x2f4818f starrocks::Tablet::init()
@ 0x2f5ced4 starrocks::TabletManager::load_tablet_from_meta()
@ 0x2f229c4 ZNSt17_Function_handlerIFbllSt17basic_string_viewIcSt11char_traitsIcEEEZN9starrocks7DataDir4loadEvEUlliS3_E0_E9_M_invokeERKSt9_Any_dataOlSC_OS3
@ 0x2f682d5 ZNSt17_Function_handlerIFbSt17basic_string_viewIcSt11char_traitsIcEES3_EZN9starrocks17TabletMetaManager4walkEPNS5_7KVStoreERKSt8functionIFbllS3_EEEUlS3_S3_E_E9_M_invokeERKSt9_Any_dataOS3_SJ
@ 0x311f020 starrocks::KVStore::iterate()
@ 0x2f6a88d starrocks::TabletMetaManager::walk()
@ 0x2f2424f starrocks::DataDir::load()
@ 0x2f0c656 _ZNSt6thread11_State_implINS_8_InvokerISt5tupleIJZN9starrocks13StorageEngine14load_data_dirsERKSt6vectorIPNS3_7DataDirESaIS7_EEEUlvE_EEEEE6_M_runEv
@ 0x6372460 execute_native_thread_routine
@ 0x7f7381dbbea5 start_thread
@ 0x7f73813d6b0d __clone
@ (nil) (unknown)

Crash的原因: 常见 Crash / BUG 堆栈查询 这个问题正在修复。

启动不起来的原因,是主键模型Rowset太多,加载慢导致,还在讨论解决方案。

OOM的原因是,有混部的情况下,be.conf 的 mem_limit 配置不合理。

1赞

我在遇到同样的问题,堆栈和您一样,请问解决了吗 ?

你遇到的是什么问题,启动慢?