为了更快的定位您的问题,请提供以下信息,谢谢
【详述】starrocks 3.1.2. 3台fe节点,2台be节点,所有表副本数都设置为2 。其中一台be因为断电导致重启,重启之后对其中一个表操作时报错:ERROR 1064 (HY000): get_applied_rowsets failed, tablet updates is in error state: tablet:85018 actual row size changed after compaction 50531 -> 50041tablet:85018 #version:13 [29445 29456.1@12 29456.1] #pending:0 backend:192.168.10.21
【背景】be节点因为断电重启
【业务影响】
【是否存算分离】 是
【StarRocks版本】例如:3.1.2
【集群规模】例如:3fe(2 follower+1leader)+2be(fe与be 分离部署)
【机器信息】be节点: CPU虚拟核/内存/网卡,例如:64C/300G/万兆 . CPU为2个numa节点。be启动时没有绑定numa节点
【联系方式】社区群13-junior
【附件】
再重启下这个be
重启之后依然是一样的情况,但是把这个表drop掉,然后再重新生成一个新表就没问题
这个也可以不删除表,把这台be上面这个副本的元数据删除也可以恢复,可以拿下日志看下grep 85018 be.INFO > 85018_be.txt
leader fe的日志grep 85018 fe.log > 85018_fe.txt
*** Aborted at 1704297702 (unix time) try “date -d @1704297702” if you are using GNU date ***
PC: @ 0x7fd4fdad0387 __GI_raise
*** SIGABRT (@0x2367) received by PID 9063 (TID 0x7fd2a597c700) from PID 9063; stack trace: ***
@ 0x6033302 google::(anonymous namespace)::FailureSignalHandler()
@ 0x7fd4fe585630 (unknown)
@ 0x7fd4fdad0387 __GI_raise
@ 0x7fd4fdad1a78 __GI_abort
@ 0x286b16e starrocks::failure_function()
@ 0x6026cdd google::LogMessage::Fail()
@ 0x602914f google::LogMessage::SendToLog()
@ 0x602682e google::LogMessage::Flush()
@ 0x6029759 google::LogMessageFatal::~LogMessageFatal()
@ 0x42765e2 starrocks::TabletMeta::_save_meta()
@ 0x4276686 starrocks::TabletMeta::save_meta()
@ 0x4244f4b starrocks::Tablet::save_meta()
@ 0x4251088 starrocks::Tablet::delete_expired_inc_rowsets()
@ 0x4269a28 starrocks::TabletManager::start_trash_sweep()
@ 0x4215d83 starrocks::StorageEngine::_start_trash_sweep()
@ 0x4517450 starrocks::StorageEngine::_garbage_sweeper_thread_callback()
@ 0x831a5f0 execute_native_thread_routine
@ 0x7fd4fe57dea5 start_thread
@ 0x7fd4fdb98b0d __clone
@ 0x0 (unknown)
在be节点上找到这个trace ,fe的日志没有发现异常
好像这里上传日志文件有点问题,无法上传文件。
贴出来文本也有点多