同步大量数据后be挂，多次重启失效，large memory alloc: 7494005708609580409 bytes, stack

kkk247843405 · 2022年12月5日 10:48

【详述】同步大量数据后be挂，be多次重启失效。重启后错误日志：
large memory alloc: 7494005708609580409 bytes, stack:
【背景】做过哪些操作？datax同步了近20亿数据的两张主键模型表
【业务影响】
【StarRocks版本】例如：2.4.1
【集群规模】例如：3fe（1 follower+2observer）+4be（fe与be混部）
【机器信息】CPU虚拟核/内存/网卡，万兆
【表模型】例如：主键模型
【导入或者导出方式】例如：datax
【附件】
W1205 18:38:01.588951 43004 mem_hook.cpp:255] large memory alloc: 7494005708609580409 bytes, stack:
@ 0x368dbeb malloc
@ 0x62a8105 operator new()
@ 0x311767d starrocks::FixedMutableIndex<>::load_snapshot()
@ 0x30fa636 starrocks::ShardByLengthMutableIndex::load()
@ 0x310660c starrocks::PersistentIndex::_load()
@ 0x3107ac7 starrocks::PersistentIndex::load()
@ 0x3109471 starrocks::PersistentIndex::load_from_tablet()
@ 0x2e8bbbc starrocks::PrimaryIndex::_do_load()
@ 0x2e8c95f starrocks::PrimaryIndex::load()
@ 0x2f5c106 starrocks::TabletUpdates::_apply_compaction_commit()
@ 0x2f5e52d starrocks::TabletUpdates::do_apply()
@ 0x3762b55 starrocks::ThreadPool::dispatch_thread()
@ 0x375df8a starrocks::supervise_thread()
@ 0x7f589074dea5 start_thread
@ 0x7f588fd6896d __clone
@ (nil) (unknown)

yingying · 2022年12月5日 12:12

是开启持久化索引了吗？表是否是分区表，有大量历史数据更新吗？目前内存多大，需要您预估导入数据所占内存

yingying · 2022年12月6日 06:48

有一个恢复集群方法，数据是三副本情况下，找到有问题的tabletid，在be目录下执行下述命令
./bin/meta_tool --operation=delete_persistent_index_meta --root_path=$path --tablet_id=tabletid
把path换成storage_path的路径，tabletid换成要删除的tablet_id

zhangqiang · 2022年12月5日 12:34

现在还有现场吗？

kkk247843405 · 2022年12月6日 01:38

有，需要提供什么嘛

kkk247843405 · 2022年12月6日 01:41

开启了；两张表有一张是分区按月份大概15-23年的数据，数据量11E；有更新，因为导入任务有重启；目前是4台BE，每台256G，预估导入数据内存如何估计呀

zhangqiang · 2022年12月6日 02:06

方便远程下吗？腾讯会议之类的？

kkk247843405 · 2022年12月6日 02:18

这个是不是意味着数据已经被删除了

zhangqiang · 2022年12月6日 02:21

这个应该是be还没来得及同步上报fe就先crash了，所以看上去磁盘还没有使用量。可以远程吗？我们一起远程看下？

kkk247843405 · 2022年12月6日 02:24

https://meeting.tencent.com/dm/kbReb5HucZKM

#腾讯会议：386-786-875