为了更快的定位您的问题,请提供以下信息,谢谢
【详述】从hdfs导入到starrocks,hdfs文件没有变,bl程序8点执行和9点执行。导入的数据量不一致。
1、两次BL程序是同一脚本,BL导入时扫描的HDFS文件是一样的。但是2次程序扫描rows的不一样。
2、spark程序已完成,yarn显示成功,然后执行的BL程序。
【背景】spark写入文件并回收driver。yarn显示ETL成功,然后执行BL导入程序。
【业务影响】
【StarRocks版本】例如:2.5.8
【集群规模】例如:3fe(2 follower+1observer)+5be(fe与be混部)
【机器信息】
【表模型】例如:明细模型
【导入或者导出方式】broker load
【联系方式】
【附件】
明细表a的分区是 date_id
BL 程序
LOAD LABEL dwd.a_020231102_091539 (
DATA INFILE(‘hdfs://IP:PORT/user/hive/warehouse/ads.db/ads_a/date_id=2021-11/*’)
INTO TABLE a
FORMAT AS ‘parquet’
(primary_key, … ,receipt_date)
SET (date_id = concat(SUBSTR(receipt_date,1,7),’-01’))
where org_no in(‘001’) and substr(receipt_date,1,10) >= ‘2023-08-01’)
WITH BROKER hdfs_broker (‘username’=‘import_user’, ‘password’=’*****’)
8点执行
show load from dwd where label like ‘dwd_a_020231102_075732’
unselected.rows=91960251; dpp.abnorm.ALL=0; dpp.norm.ALL=856417
9点执行
show load from dwd where label like ‘dwd_a_020231102_091539’
unselected.rows=90866267; dpp.abnorm.ALL=0; dpp.norm.ALL=1950401