为了更快的定位您的问题,请提供以下信息,谢谢
【详述】BI上线的调度任务,凌晨0点执行,然后执行到某个步骤,突然连接就断开了,导致任务失败。任务开启时并发只有4个任务。报错信息如下:
W0716 00:32:02.403928 9003 sink_buffer.cpp:362] transmit chunk rpc failed [dest_instance_id=3a444a9c-6199-11f0-93c0-a0369fd8cee2] [dest=x.x.x.x:8060] detail:brpc failed, error=Host is down, error_text=[E110]Fail to read from Socket{id=453 fd=9163 addr=x.x.x.x:8060:64110} (0x0x7f5ddab6080
0): Connection timed out [R1][E112]Not connected to x.x.x.x:8060 yet, server_id=453 [R2][E112]Not connected to x.x.x.x:8060 yet, server_id=453 [R3][E112]Not connected to x.x.x.x:8060 yet, server_id=453
这是3个be节点中的一个,另两个同样的报错。x.x.x.x ,ip是指报错节点连接的另一个be的ip。等于是3个be节点互相不通。查看be进程也没有重启。这种报错长的持续3、4分钟,短的1分钟左右
【背景】无
【业务影响】连接中断后,业务重试也失败,直接导致报表任务失败,只能白天在手动重调处理
【是否存算分离】否
【StarRocks版本】3.1.15
【集群规模】3fe+3be(fe与be独立部署)
【机器信息】40C/256G/千兆
【联系方式】社区群24-Hanson,谢谢