cn节点频繁重启

cn重启发一下 cn.out 日志,检查dmesg -T 是否有oom相关的日志

cn (14).zip (9.0 MB)

这个是 cn.INFO,看下 cn.out 日志

马上

cn (1).out (342.6 KB)

告警中会出现 CN节点starrocks-prod-cn-1.starrocks-prod-cn-search.starrocks.svc.cluster.local:8040程序内存占用值为1318GB 提示

大佬,定位到问题可能是routine load入库导致的,上午任务全pause,下午启动就一直轮流死机

开启coredump配置,如果稳定复现的话 帮忙拿下cn crash 时的 core 文件
coredump获取配置参考 如何获取coredump

routine load任务造成的

定位到原因了?

routine load任务中有表的字段是VARBINARY,里面存放了html相关的东西,然后入库解析可能出了问题,导致了一直cn健康检查没响应,就服务一直挂。

出问题时间点附近的be.out和be.warn发下,?

上面有cn.out

cn.WARNING.log.zip (20.4 MB)

能提供下建表语句和复现数据吗?

找一下这个大佬吧

已经复现了,正在查原因

大佬有解决办法dd一下,之前出问题的那个表剔除了,生产又出现了,重启routine load后暂时又没发现。

原因确定了,马上会修复。

1赞