如何获取coredump

说明

Linux环境下进程发生异常而挂掉,通常很难查找原因,但是一般Linux内核给我们提供的核心文件,记录了进程在崩溃时候的信息。可以参考以下方式获取coredump

热加载方式生成coredump

1.通过grep命令查找到对应的BE进程

ps aux| grep 'lib/starrocks_be'

2.执行prlimit -p 热加载的方式进行core文件的开启

sudo prlimit -p $bePID --core=unlimited:unlimited

3.查看对应的BE进程确认core文件大小限制是否为unlimited

cat /proc/$bePID/limits

不为0的话进程崩溃会在be部署根目录下生成一个core文件。

指定生成文件的路径和名字;执行# vim /etc/sysctl.conf,进入编辑模式,加入下面两行

kernel.core_pattern=/tmp/core_%e_%p
kernel.core_uses_pid=0

sysctl -p /etc/sysctl.conf,是修改马上生效。

4.core_pattern的命名规则:

%c 转储文件的大小上限 
%e 所dump的文件名 
%g 所dump的进程的实际组ID
%h 主机名 %p 所dump的进程PID 
%s 导致本次coredump的信号 
%t 转储时刻(由1970年1月1日起计的秒数) 
%u 所dump进程的实际用户ID
集群磁盘空间异常上涨
starrocks be 频繁宕机
集群运行一段时间后,Be节点异常挂掉
be 节点挂掉了
get extra file size in primary table fail, tablet_id
[Coordinator.deliverExecBatchFragmentsRequests():1262] exec plan fragment failed, errmsg=exec rpc error. backend id: 10008, code: THRIFT_RPC_ERROR, fragmentId=F20, backend=***** 。 connections is not available,request timeout after 3000ms
集群扩大CPU及内存后,整体查询速度慢了很多
StarRocks访问HMS Kerberos 认证失败
物化视图刷新报空指针异常
3.0.6 AuditLoader 导入失败
StreamLoad导入数据报错 column为关键字
be节点挂掉
SR3.0.3创建物化视图使用语法OR replace报错
[问题排查]BE Crash
【BE error】be集群扩容后sql查询报错
be多目录存储有大量旧版本数据未删除
jdbc 的ssl认证怎么配置
某个脚本报跑不了,fe报Connection reset by peer Thrift Error occurred during processing of message
Caused by: java.sql.SQLTransientConnectionException: (conn=1034456) Unsupported command(COM_STMT_CLOSE)
导入任务一直失败/超时
mysql导入starRocks数据类型乱码报错怎么回事哦
3.1.1升至3.1.4,bitmap_from_string(group_concat(concat(user_id), ','))人数错误
starrocks fe和be在非高峰时段负载很高
StarRocks Stream Load 导入失败
fe挂掉,拉不起来,踢出去,加进来报错
profile文件中CachedPagesNum什么意思呢
be 节点报:create table failed. status: Invalid argument: starlet err Invalid sys.root configuration provided!
刷新异步物化视图进度一直卡在96%,正常情况很快就会刷新完
Java UDF
swap替换底层异步物化视图后依赖底层化异步物化视图的异步视图刷新异常
jdbc执行union all的sql报错有多个结果集
有一个be的io 监控图一直很高 基本90多了,改怎么排查
enable_async_write_back is disabled since version 3.1.4
SHOW ROUTINE LOAD执行超时
【FE】升级2.5.21后fe启动失败
starrocks be gdb attach 调试
2.5.19FE 连接close fail
某个be节点停机维护,停机维护时长受什么参数影响,原理过程是什么
【2.5.11版本】磁盘IO占用一直保持在50%-60%
物化视图改写失败
物化视图改写有时候会报错ERROR 1064(HY000)Invalid plan
3.2.3版本 使用sort+limit 报错
be节点频繁宕机
starRocks 定时备份方案如何做
最全合集|StarRocks 精选资料库!(长期更新)
export数据到oss报错
窗口函数结果不正确 sum(b) over(order by a rows between 1 following and 1 following)
节点副本退役
ubuntu24.04编译starrocks3.3.0
3.2.3 be 全部突然宕机
cn节点频繁重启
存储分离存储卷设置错误,导致创建的库表在被删除之后,还是在尝试创建文件
cn节点内存超用,怀疑内存泄漏,无法追踪内存使用
存算分离添加字段卡死,最终1天后超时
【磁盘使用率异常,锯齿状】到80% 然后下降
failed tablet version
CI流水线中BE宕机
StarRocks存算分离分组的一个BUG
cpu占用太高
使用prepare查询,结果不对
统计信息获取时报错, 导致sql无法执行
sql执行时删除资源组be会crash
【Starrocks】集群统计信息没有正常更新
【BE OOM】 设置mem_limit 85%后,be两个节点因OOM 进程被系统kill
Starrocks2.1升级到3.2注意事项
starRocks分词器替换
be crash, 多列动态过滤导致三个be全挂了, 报错显示vector::_M_default_append large memory alloc
3.2.11 be crash, json解析内存消耗过大导致内存溢出, be的 memTracker显示内存只有10G
task_runs 开启归档后怎么清理?
集群升级后fe节点频繁崩溃
官方集群迁移工具,表ddl信息同步成功,但是某些表的数据没有迁移过去
相同表结构和数据3.1存储占用比3.0大两倍
主键模型表,对标进行更新、删除操作导致磁盘一直增长,索引文件不会清理
执行sql报错: no writable spill storage directories, 实际spill磁盘空间还剩余200G左右
3.2.9 存算一体集群 fe的join状态一直为false
3.1.11 执行stream load时be崩溃
3.2.9 存算一体,fe的内存一直在涨,然后oom
odps catalog执行sql报错: Index 0 out of length 0
查询数据union all报错, no delete vector found tablet:757407 segment:0 version:2'
BE节点oom后且无法拉起
be节点下线pending_task暴增不受参数控制
create tablet empty store limit in request. 创建表失败
求助帖【core】是什么文件
2.5.16查询hive外部表不支持OBS
3.0.2 be crash

最好写为:
kernel.core_pattern=/tmp/core_%e_%p
因为实际生产中不一定都是root账户启动。因而不一定有/var/路径写入权限。

1赞