hive catalog 偶发性连接失败

为了更快的定位您的问题,请提供以下信息,谢谢
【详述】hive catalog 偶发性连接失败,不知道怎么排查问题。需要看哪里可以找到问题?

链接hive_catalogc查询数据库
mysql> set catalog hive_catalog;
Query OK, 0 rows affected (0.00 sec)

mysql> show databases;
ERROR 1064 (HY000): Failed to getAllDatabases, msg: Unable to instantiate org.apache.hadoop.hive.metastore.HiveMetaStoreClient

【背景】日常使用
【业务影响】任务不能正常从hive同步数据
【是否存算分离】否
【StarRocks版本】3.2.3
【集群规模】3fe+5be(fe与be混部)
【机器信息】16c 64G
【联系方式】社区群13-王双涛

在fe/conf/fe.conf文件中的JAVA_OPTS或JAVA_OPTS_FOR_JDK_9加上-Dsun.security.krb5.debug=true或者be/conf/hadoop_env.sh中添加HADOOP_OPTS="$HADOOP_OPTS -Dsun.security.krb5.debug=true",

然后重启FE,再执行看下,如果还报错帮忙发下 fe.out 日志

重启了全部fe后就好了, 但是后面还会发生不能连接的问题, 链接Hive_catalog有连接数的限制吗, 每次连接完会自动关闭连接吗,如果没关闭,怎么手动关闭,如何查看在连接的连接数,谢谢老师支持。

日志文件里连不上hive_catalog 提示 hdfsOpenFile failed, file=hdfs://clusterprod/apps/hive/warehouse/ods.db/stg_app_hd_comp_atah_i/stg_app_hd_comp_atah_i__b72c12e6_7f07_48f9_848f_a00f579a13f7_20240822185300_1724323980124

{“timestamp”:“2024-08-23T13:46:33.320+08:00”,“level”:“ERROR”,“thread”:“TaskLogInfo-2614_298567_1436967”,“logger”:" - [taskAppId=TASK-2614-298567-1436967]",“context”:“default”,“production”:“TASKFLOW”,“message”:“hdfsOpenFile failed, file=hdfs://clusterprod/apps/hive/warehouse/ods.db/stg_app_hd_comp_atah_i/stg_app_hd_comp_atah_i__b72c12e6_7f07_48f9_848f_a00f579a13f7_20240822185300_1724323980124: file = hdfs://clusterprod/apps/hive/warehouse/ods.db/stg_app_hd_comp_atah_i/stg_app_hd_comp_atah_i__b72c12e6_7f07_48f9_848f_a00f579a13f7_20240822185300_1724323980124”,“error_type”:“java.lang.RuntimeException”,“error_msg”:“hdfsOpenFile failed, file=hdfs://clusterprod/apps/hive/warehouse/ods.db/stg_app_hd_comp_atah_i/stg_app_hd_comp_atah_i__b72c12e6_7f07_48f9_848f_a00f579a13f7_20240822185300_1724323980124: file = hdfs://clusterprod/apps/hive/warehouse/ods.db/stg_app_hd_comp_atah_i/stg_app_hd_comp_atah_i__b72c12e6_7f07_48f9_848f_a00f579a13f7_20240822185300_1724323980124”,“error_stacktrace”:“at io.zeta.taskflow.server.worker.task.sql.SqlTask.executeFuncAndSql(SqlTask.java:393),at io.zeta.taskflow.server.worker.task.sql.SqlTask.handle(SqlTask.java:240),at io.zeta.taskflow.server.worker.runner.TaskExecuteThread.run(TaskExecuteThread.java:129),at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:511),at java.util.concurrent.FutureTask.run(FutureTask.java:266),at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149),at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624),at java.lang.Thread.run(Thread.java:748)”}

日志文件里连不上hive_catalog 提示 hdfsOpenFile failed, file=hdfs://clusterprod/apps/hive/warehouse/ods.db/stg_app_hd_comp_atah_i/stg_app_hd_comp_atah_i__b72c12e6_7f07_48f9_848f_a00f579a13f7_20240822185300_1724323980124

重启了全部fe后就好了, 但是后面还会发生不能连接的问题, 链接Hive_catalog有连接数的限制吗, 每次连接完会自动关闭连接吗,如果没关闭,怎么手动关闭,如何查看在连接的连接数,谢谢老师支持。

hive catalog Failed to get partitionKeys on meta管理 阿里云dlf 你的hive metastore ,用的是阿里云的dlf 么, 我也遇到这个问题了, 大概半个月到一个月复现一次,重启fe 解决

我的不是阿里云,公司自有服务器,我昨天重启了,fe 今天就不能访问了

昨天升级到 3.2.9 ,升级完后可以查询hive_catalog ,今天又试了一下,还是不能访问。
fe.out日志feOut.tar.gz (5.6 MB)

看日志,偶尔找不到kerberos server 和priciple ,您帮定位下是哪里的问题