同步大量数据后be挂,多次重启失效,large memory alloc: 7494005708609580409 bytes, stack

【详述】同步大量数据后be挂,be多次重启失效。重启后错误日志:
large memory alloc: 7494005708609580409 bytes, stack:
【背景】做过哪些操作?datax同步了近20亿数据的两张主键模型表
【业务影响】
【StarRocks版本】例如:2.4.1
【集群规模】例如:3fe(1 follower+2observer)+4be(fe与be混部)
【机器信息】CPU虚拟核/内存/网卡, 万兆
【表模型】例如:主键模型
【导入或者导出方式】例如:datax
【附件】
W1205 18:38:01.588951 43004 mem_hook.cpp:255] large memory alloc: 7494005708609580409 bytes, stack:
@ 0x368dbeb malloc
@ 0x62a8105 operator new()
@ 0x311767d starrocks::FixedMutableIndex<>::load_snapshot()
@ 0x30fa636 starrocks::ShardByLengthMutableIndex::load()
@ 0x310660c starrocks::PersistentIndex::_load()
@ 0x3107ac7 starrocks::PersistentIndex::load()
@ 0x3109471 starrocks::PersistentIndex::load_from_tablet()
@ 0x2e8bbbc starrocks::PrimaryIndex::_do_load()
@ 0x2e8c95f starrocks::PrimaryIndex::load()
@ 0x2f5c106 starrocks::TabletUpdates::_apply_compaction_commit()
@ 0x2f5e52d starrocks::TabletUpdates::do_apply()
@ 0x3762b55 starrocks::ThreadPool::dispatch_thread()
@ 0x375df8a starrocks::thread::supervise_thread()
@ 0x7f589074dea5 start_thread
@ 0x7f588fd6896d __clone
@ (nil) (unknown)

是开启持久化索引了吗?表是否是分区表,有大量历史数据更新吗?目前内存多大,需要您预估导入数据所占内存

有一个恢复集群方法,数据是三副本情况下,找到有问题的tabletid,在be目录下执行下述命令
./bin/meta_tool --operation=delete_persistent_index_meta --root_path=$path --tablet_id=tabletid
把path换成storage_path的路径,tabletid换成要删除的tablet_id

现在还有现场吗?

有,需要提供什么嘛

开启了;两张表有一张是分区 按月份大概15-23年的数据,数据量11E;有更新,因为导入任务有重启;目前是4台BE,每台256G,预估导入数据内存如何估计呀

方便远程下吗?腾讯会议之类的?

这个是不是意味着数据已经被删除了

这个应该是be还没来得及同步上报fe就先crash了,所以看上去磁盘还没有使用量。可以远程吗?我们一起远程看下?

https://meeting.tencent.com/dm/kbReb5HucZKM

#腾讯会议:386-786-875