spark读取数据量和数据库真实数据量相差太大

为了更快的定位您的问题,请提供以下信息,谢谢
【详述】通过 spark 读取 starrocks明细表的数据,发现读取出来的数据量和真实的数据量相差非常大
【背景】
【业务影响】
【是否存算分离】否
【StarRocks版本】3.0.8
【集群规模】3fe(1 follower+2observer)+3be(fe与be混部)
【机器信息】48C/256G/万兆
【表模型】明细模型
【导入或者导出方式】spark
【联系方式】电话:17665321066 邮箱:maggie.wang@icloudsky.com
【附件】

  • fe.log:
    2024-04-10 15:38:28,326 INFO (nioEventLoopGroup-4-38|140) [RestBaseAction.handleRequest():71] receive http request. url=/api/game/dwd_cloudgame_flow_state_by_sdk03m_1d/_query_plan
    2024-04-10 15:38:28,327 INFO (nioEventLoopGroup-4-38|140) [TableQueryPlanAction.executeWithoutPassword():139] receive SQL statement [select flow_id,dt,ts,vmid,area_type,uuid,ugid,game_name,game_type,biz_type,biz_name,sdk_type,sdk_version,resolution,ls_version,loss_rate,p2p_op_delay_decode_99,p2p_op_delay_decode_avg,p2p_op_delay_decode_min,hevc,bitrate_level,protocal,p2p_op_delay_render_99,p2p_op_delay_render_avg from game.dwd_cloudgame_flow_state_by_sdk03m_1d where dt=‘2024-04-10’] from external service [ user [‘root’@’%’]] for database [game] table [dwd_cloudgame_flow_state_by_sdk03m_1d]

spark代码:

直接从数据库里查询出来的数据:

  • 完整的报错异常栈