为了更快的定位您的问题,请提供以下信息,谢谢
【详述】早上9点大面积datax和flink写入SR获取连接异常,导致写入SR数据失败,关键日志:‘call frontend service failed, address=TNetworkAddress(), reason=THRIFT_EAGAIN (timed out), host: unknown’。
并且FE leader jvm出现异常。查看FE日志:2024-05-05 09:11:35,242 WARN (thrift-server-pool-145042|234993) [Database.logTryLockFailureEvent():150] try db lock failed. type: readLock, current owner id: 220874, owner name: thrift-server-pool-134464, owner stack: dump thread: thrift-server-pool-134464, id: 220874
【背景】
【业务影响】 关键业务数据导数失败,影响业务使用
【是否存算分离】否
【StarRocks版本】例如:2.5.19
【集群规模】例如:3fe(1 follower+2observer)+24be
【机器信息】CPU虚拟核/内存/网卡,例如:48C/64G/万兆
【联系方式】为了在解决问题过程中能及时联系到您获取一些日志信息,请补充下您的联系方式,例如:社区群9,谢谢
【附件】
- fe.log/beINFO/相应截图
- 慢查询:
- Profile信息
- 并行度:show variables like ‘%parallel_fragment_exec_instance_num%’;
- pipeline是否开启:show variables like ‘%pipeline%’;
- be节点cpu和内存使用率截图
- 查询报错:
- be crash
- be.out
- 外表查询报错
- be.out和fe.warn.log