停机维护及升级

cpolive · 2024年05月22日 03:06

三节点的集群，如果有一台机器，有二台需要停机15分钟，这种最佳实践操作？

JohnsonMeng · 2024年05月22日 11:27

你的 FE/BE 混合部署吗？具体升级可以参考文档中的运维管理内容。PS：如果是 3 个节点 BE 在 3 台机器上，那一台一台的升级是没问题的

cpolive · 2024年05月23日 01:44

停机维护的话，比如3FE7BE混部，我其中一台BE停15分钟，这种比较好的操作方式？

JohnsonMeng · 2024年05月24日 01:35

几乎没什么影响

cpolive · 2024年05月24日 01:36

停BE的时候，数据不会rebalance么？

JohnsonMeng · 2024年05月27日 08:26

BE 在执行下线的时候，会做数据 banlance

cpolive · 2024年05月27日 09:19

在停机维护的时候遇到二个问题：
1 数据在补副本的时候（由1副本改成3副本），很多实时任务会报 Tablet lost replicas. Check if any backend is down or not（2.5.20、3.1.2版本必现），be状态是好的

be.out没有输出

W0527 11:55:54.897707 6782 stream_load.cpp:531] plan streaming load failed. errmsg=Tablet lost replicas. Check if any backend is down or not. tablet_id: 14363473, backends: 10.35.5.160id=4946c07c3fbb7b8a-8a32ff36ddaa25b3, job_id=-1, txn_id: 56554194, label=e953eba0-1c7f-4db6-9011-e05575b024c5

2 还有在停BE的时候，flink任务，会一直拿到当前停的BE，然后任务就起不来

在13:12:03，连接不到5.160，transaction 回滚成功后，后续持续1分钟还在请求5.160这停节点
请求节点，都是报下面的错误

cpolive · 2024年05月27日 10:15

@dongquan 大佬帮忙看看，

Doni · 2024年05月28日 12:59

alter成3副本后，元数据已经修改完成了，但实际存在clone的过程，此时提交写入任务会先检测是否一半以上的副本是正常的。副本还没创建出来所以写入返回报错

Doni · 2024年05月28日 13:04

be挂掉后，日志中的信息是探活信息，fe对be的探活失败，fe日志中会打印此信息

zhanghuaibei · 2024年05月28日 13:21

升级过程中会对写入有影响，这个有办法规避吗

cpolive · 2024年05月29日 01:33

但是flink任务，一启动就报这个错，启动不了

cpolive · 2024年05月29日 01:26

关于这一点，一半以上，含一半么？
比如1-》2过程中会返回报错么？

Doni · 2024年05月29日 02:07

不含一半，设置2副本的话就是2副本都要正常才可以导入

cpolive · 2024年05月29日 02:14

好的，谢谢回复

flink 7个be,关掉1个be，任务就启动不了，这个能帮忙看看么，感谢

Doni · 2024年05月29日 02:32

发一下 flink connector 写入相关的配置

Doni · 2024年05月29日 02:35

所有表设置3副本影响能降低一点，目前暂时没办法完全规避

cpolive · 2024年05月29日 02:38

with (
    'connector' = 'starrocks',
    'sink.version' = 'V2',
    'sink.semantic' = 'at-least-once',
    'sink.buffer-flush.max-bytes' = '${sr_flush_max_bytes}',
    'sink.buffer-flush.interval-ms' = '${sr_flush_interval_ms}',
    'database-name' = 'ads',
    'table-name' = 'a_kpi_day_rt',
    'jdbc-url' = '${sr_local_jdbc_url}',
    'load-url' = '${sr_local_load_url}',
    'username' = '${sr_local_write_username}',
    'password' = '${sr_local_write_password}'
);

目前就是三副本有个实时任务，就是存在这种问题

Doni · 2024年05月29日 02:38

这个配置的fe 8030 还是be 8040

cpolive · 2024年05月29日 02:40

配置的是8030