broker load 丢数

智数部架构 · 2023年11月2日 01:56

为了更快的定位您的问题，请提供以下信息，谢谢
【详述】从hdfs导入到starrocks，hdfs文件没有变，bl程序8点执行和9点执行。导入的数据量不一致。
1、两次BL程序是同一脚本，BL导入时扫描的HDFS文件是一样的。但是2次程序扫描rows的不一样。
2、spark程序已完成，yarn显示成功，然后执行的BL程序。
【背景】spark写入文件并回收driver。yarn显示ETL成功，然后执行BL导入程序。
【业务影响】
【StarRocks版本】例如：2.5.8
【集群规模】例如：3fe（2 follower+1observer）+5be（fe与be混部）
【机器信息】
【表模型】例如：明细模型
【导入或者导出方式】broker load
【联系方式】
【附件】
明细表a的分区是 date_id
BL 程序
LOAD LABEL dwd.a_020231102_091539 (
DATA INFILE(‘hdfs://IP:PORT/user/hive/warehouse/ads.db/ads_a/date_id=2021-11/*’)
INTO TABLE a
FORMAT AS ‘parquet’
(primary_key, … ,receipt_date)
SET (date_id = concat(SUBSTR(receipt_date,1,7),’-01’))
where org_no in(‘001’) and substr(receipt_date,1,10) >= ‘2023-08-01’)
WITH BROKER hdfs_broker (‘username’=‘import_user’, ‘password’=’*****’)

8点执行
show load from dwd where label like ‘dwd_a_020231102_075732’
unselected.rows=91960251; dpp.abnorm.ALL=0; dpp.norm.ALL=856417

9点执行
show load from dwd where label like ‘dwd_a_020231102_091539’
unselected.rows=90866267; dpp.abnorm.ALL=0; dpp.norm.ALL=1950401

dongquan · 2023年11月14日 03:29

需确认下数据是不是不满足where org_no in(‘001’) and substr(receipt_date,1,10) >= ‘2023-08-01’) 条件被过滤掉了