停机维护及升级

三节点的集群,如果有一台机器,有二台需要停机15分钟,这种最佳实践操作?

你的 FE/BE 混合部署吗?具体升级可以参考文档中的运维管理内容。PS:如果是 3 个节点 BE 在 3 台机器上,那一台一台的升级是没问题的

停机维护的话,比如3FE7BE混部,我其中一台BE停15分钟,这种比较好的操作方式?

几乎没什么影响

停BE的时候,数据不会rebalance么?

BE 在执行下线的时候,会做数据 banlance

在停机维护的时候遇到二个问题:
1 数据在补副本的时候(由1副本改成3副本),很多实时任务会报 Tablet lost replicas. Check if any backend is down or not(2.5.20、3.1.2版本必现),be状态是好的

be.out没有输出

W0527 11:55:54.897707 6782 stream_load.cpp:531] plan streaming load failed. errmsg=Tablet lost replicas. Check if any backend is down or not. tablet_id: 14363473, backends: 10.35.5.160id=4946c07c3fbb7b8a-8a32ff36ddaa25b3, job_id=-1, txn_id: 56554194, label=e953eba0-1c7f-4db6-9011-e05575b024c5

2 还有在停BE的时候,flink任务,会一直拿到当前停的BE,然后任务就起不来



在13:12:03,连接不到5.160,transaction 回滚成功后,后续持续1分钟还在请求5.160这停节点
请求节点,都是报下面的错误

@dongquan 大佬帮忙看看 ,

alter成3副本后,元数据已经修改完成了,但实际存在clone的过程,此时提交写入任务 会先检测是否一半以上的副本是正常的。副本还没创建出来 所以写入返回报错

1赞

be挂掉后,日志中的信息是探活信息,fe对be的探活失败,fe日志中会打印此信息

升级过程中会对写入有影响,这个有办法规避吗

但是flink任务,一启动就报这个错,启动不了

关于这一点,一半以上,含一半么?
比如1-》2过程中会返回报错么?

不含一半,设置2副本的话 就是2副本都要正常才可以导入

1赞

好的,谢谢回复

flink 7个be,关掉1个be,任务就启动不了,这个能帮忙看看么,感谢

发一下 flink connector 写入相关的配置

所有表设置3副本影响能降低一点,目前暂时没办法完全规避

with (
    'connector' = 'starrocks',
    'sink.version' = 'V2',
    'sink.semantic' = 'at-least-once',
    'sink.buffer-flush.max-bytes' = '${sr_flush_max_bytes}',
    'sink.buffer-flush.interval-ms' = '${sr_flush_interval_ms}',
    'database-name' = 'ads',
    'table-name' = 'a_kpi_day_rt',
    'jdbc-url' = '${sr_local_jdbc_url}',
    'load-url' = '${sr_local_load_url}',
    'username' = '${sr_local_write_username}',
    'password' = '${sr_local_write_password}'
);

目前就是三副本有个实时任务,就是存在这种问题

这个配置的fe 8030 还是be 8040

配置的是8030