重启之后, 感觉 hive catalog 没法用了
重启不影响hive catalog,是不是hive catalog配置出问题才导致导入失败了
hive catalog 是可以select的, 读 hive catalog 入 sr, 是异步任务出问题了应该是
SELECT md5(concat(`name`, `channel`)) name_channel_md5,
`index`, `videoType`,`date`, `id`, `name`,
`channel`, `play_times`, `dayPlayTimes`,`up`, `dayUp`, `down`, `dayDown`,
`comment_count`, `totalComments`, `barrageCount`, `dayBarrageCount`,
`rating`, `fake`, `dayPlayTimesPredicted`, `playTimesPredicted`
FROM hive.mysql_prod_enlightent_daily.movie_total_info_oss_table
where `date` = '2023-11-01'
limit 100;
我现在不加日期过滤还可以, 加日期过滤之后,就是全表扫描, 这个受不了
2023-12-01 19:09:17,747 INFO (thrift-server-pool-411|951) [QeProcessorImpl.reportExecStatus():179] ReportExecStatus() failed, query does not exist, fragment_instance_id=798d4cc1-902f-11ee-84f2-00163e354102, query_id=798d4cc1-902f-11ee-84f2-00163e354101,
broker load 有问题, 我任务已经失败了 2023-12-01 18:17:41,514 INFO (stateChangeExecutor|68) [TaskManager.replayCreateTaskRun():686] replayCreateTaskRun:TaskRunStatus{qu
eryId=‘798d4cc1-902f-11ee-84f2-00163e354101’, taskName=‘task_tv_total_info_1101’, createTime=1701424407223, finishTime=0, state=PE
NDING, progress=0%, dbName=‘enlightent_daily’, definition='INSERT into enlightent_daily
.tv_total_info
2023-12-01 18:17:41,514 INFO (stateChangeExecutor|68) [TaskManager.replayUpdateTaskRun():719] replayUpdateTaskRun:TaskRunStatus{qu
eryId=‘798d4cc1-902f-11ee-84f2-00163e354101’, taskId=‘22721’, finishTime=0, fromStatus=PENDING, toStatus=RUNNING, errorCode=0, err
orMessage=‘null’, extraMessage=}
重启fe, 还是会报 这个queryid 不存在 798d4cc1-902f-11ee-84f2-00163e354101
我把fe, be 节点全部重启之后, hive catalog 的功能恢复了
正常后再导入一次看看吧
又卡在 99%, 然后报错, BE access S3 file failed, SdkResponseCode=416, SdkErrorType=100, SdkErrorMessage=Unable to parse ExceptionName: InvalidRange Message: The requested range is not satisfiable。
崩溃
之前导入的时候, 内存是16G, 我导入30亿条数据,最后到99%报错,
后来一次成功了,是我导入 15亿数据,最后成功了,我看很早就到了99%, 但是导入的rownumber 一直在增加。
16G还是太低了,生产环境建议64G起步。
嗯, 目前只是测试