starrocks一个fe节点元数据目录下打开文件过多之后fe挂了

【详述】Caused by: java.io.FileNotFoundException: /data/var/lib/starRocks/meta/starrocks-meta/bdb/0000008d.jdb (打开的文件过多)
【背景】正常 routine load 同步数据和报表查询,一直都没问题,昨晚23点一个fe节点挂了
【业务影响】 暂时有其他状态正常的fe
【StarRocks版本】例如:2.0.1
【集群规模】例如:3fe+3be(fe与be混部)
【机器信息】CPU虚拟核/内存/网卡,例如:48C/64G/万兆
【附件】

  • fe.warn.log/be.warn.log/相应截图
    fe.warn.log.txt (11.2 KB)
    重启后
    重启后fe.warn.log.txt (2.3 KB)
  • 慢查询:
    • Profile信息
    • 并行度:show variables like ‘%parallel_fragment_exec_instance_num%’;
    • cbo是否开启:show variables like ‘%cbo%’;
    • be节点cpu和内存使用率截图

ulimit -u这个值是多大尼?

这个514035

cat /proc/$pid/limits 看看,估计是文件句柄太多了,机器是不是文件句柄设置小了。

ulimit -n 看是1024 应该是太小了

指定同一时间最多可开启的文件数我改成65536但是这个fe启动还是有问题,报错:com.sleepycat.je.EnvironmentFailureException: (JE 7.3.7) ip_9011_1650877914210(-1):/data/var/lib/starRocks/meta/starrocks-meta/bdb recoveryTracker should overlap or follow on disk last VLSN of 5,851,115 recoveryFirst= 5,851,117 UNEXPECTED_STATE_FATAL: Unexpected internal state, unable to continue. Environment is invalid and must be closed.

这个元数据有些问题了,多台fe的话,需要清空这台故障fe的meta,重新部署下这台fe

好的已经让有问题的fe重新同步元数据了,谢谢