如何获取coredump

说明

Linux环境下进程发生异常而挂掉,通常很难查找原因,但是一般Linux内核给我们提供的核心文件,记录了进程在崩溃时候的信息。可以参考以下方式获取coredump

热加载方式生成coredump

1.通过grep命令查找到对应的BE进程

ps aux| grep 'lib/starrocks_be'

2.执行prlimit -p 热加载的方式进行core文件的开启

prlimit -p $bePID --core=unlimited:unlimited

3.查看对应的BE进程确认core文件大小限制是否为unlimited

cat /proc/$bePID/limits

/limits

不为0的话进程崩溃会在be部署根目录下生成一个core文件。

指定生成文件的路径和名字;执行# vim /etc/sysctl.conf,进入编辑模式,加入下面两行

kernel.core_pattern=/tmp/core_%e_%p
kernel.core_uses_pid=0

sysctl -p /etc/sysctl.conf,是修改马上生效。

4.core_pattern的命名规则:

%c 转储文件的大小上限 
%e 所dump的文件名 
%g 所dump的进程的实际组ID
%h 主机名 %p 所dump的进程PID 
%s 导致本次coredump的信号 
%t 转储时刻(由1970年1月1日起计的秒数) 
%u 所dump进程的实际用户ID
集群磁盘空间异常上涨
starrocks be 频繁宕机
集群运行一段时间后,Be节点异常挂掉
be 节点挂掉了
物化视图刷新报空指针异常
3.0.6 AuditLoader 导入失败
StreamLoad导入数据报错 column为关键字
be节点挂掉
SR3.0.3创建物化视图使用语法OR replace报错
[问题排查]BE Crash
【BE error】be集群扩容后sql查询报错
be多目录存储有大量旧版本数据未删除
jdbc 的ssl认证怎么配置
某个脚本报跑不了,fe报Connection reset by peer Thrift Error occurred during processing of message
导入任务一直失败/超时
mysql导入starRocks数据类型乱码报错怎么回事哦
3.1.1升至3.1.4,bitmap_from_string(group_concat(concat(user_id), ','))人数错误
StarRocks Stream Load 导入失败
fe挂掉,拉不起来,踢出去,加进来报错
profile文件中CachedPagesNum什么意思呢
be 节点报:create table failed. status: Invalid argument: starlet err Invalid sys.root configuration provided!
刷新异步物化视图进度一直卡在96%,正常情况很快就会刷新完
Java UDF
swap替换底层异步物化视图后依赖底层化异步物化视图的异步视图刷新异常
get extra file size in primary table fail, tablet_id
jdbc执行union all的sql报错有多个结果集
有一个be的io 监控图一直很高 基本90多了,改怎么排查
求助帖【core】是什么文件
2.5.16查询hive外部表不支持OBS
3.0.2 be crash
[Coordinator.deliverExecBatchFragmentsRequests():1262] exec plan fragment failed, errmsg=exec rpc error. backend id: 10008, code: THRIFT_RPC_ERROR, fragmentId=F20, backend=***** 。 connections is not available,request timeout after 3000ms
StarRocks访问HMS Kerberos 认证失败

最好写为:
kernel.core_pattern=/tmp/core_%e_%p
因为实际生产中不一定都是root账户启动。因而不一定有/var/路径写入权限。

1赞