如何获取coredump

说明

Linux环境下进程发生异常而挂掉,通常很难查找原因,但是一般Linux内核给我们提供的核心文件,记录了进程在崩溃时候的信息。可以参考以下方式获取coredump

热加载方式生成coredump

1.通过grep命令查找到对应的BE进程

ps aux| grep 'lib/starrocks_be'

2.执行prlimit -p 热加载的方式进行core文件的开启

sudo prlimit -p $bePID --core=unlimited:unlimited

3.查看对应的BE进程确认core文件大小限制是否为unlimited

cat /proc/$bePID/limits

不为0的话进程崩溃会在be部署根目录下生成一个core文件。

指定生成文件的路径和名字;执行# vim /etc/sysctl.conf,进入编辑模式,加入下面两行

kernel.core_pattern=/tmp/core_%e_%p
kernel.core_uses_pid=0

sysctl -p /etc/sysctl.conf,是修改马上生效。

4.core_pattern的命名规则:

%c 转储文件的大小上限 
%e 所dump的文件名 
%g 所dump的进程的实际组ID
%h 主机名 %p 所dump的进程PID 
%s 导致本次coredump的信号 
%t 转储时刻(由1970年1月1日起计的秒数) 
%u 所dump进程的实际用户ID
集群运行一段时间后,Be节点异常挂掉
starrocks be 频繁宕机
集群磁盘空间异常上涨
be 节点挂掉了
3.0.2 be crash
[Coordinator.deliverExecBatchFragmentsRequests():1262] exec plan fragment failed, errmsg=exec rpc error. backend id: 10008, code: THRIFT_RPC_ERROR, fragmentId=F20, backend=***** 。 connections is not available,request timeout after 3000ms
集群扩大CPU及内存后,整体查询速度慢了很多
StarRocks访问HMS Kerberos 认证失败
物化视图刷新报空指针异常
3.0.6 AuditLoader 导入失败
StreamLoad导入数据报错 column为关键字
be节点挂掉
SR3.0.3创建物化视图使用语法OR replace报错
[问题排查]BE Crash
【BE error】be集群扩容后sql查询报错
be多目录存储有大量旧版本数据未删除
jdbc 的ssl认证怎么配置
某个脚本报跑不了,fe报Connection reset by peer Thrift Error occurred during processing of message
Caused by: java.sql.SQLTransientConnectionException: (conn=1034456) Unsupported command(COM_STMT_CLOSE)
导入任务一直失败/超时
mysql导入starRocks数据类型乱码报错怎么回事哦
3.1.1升至3.1.4,bitmap_from_string(group_concat(concat(user_id), ','))人数错误
starrocks fe和be在非高峰时段负载很高
StarRocks Stream Load 导入失败
fe挂掉,拉不起来,踢出去,加进来报错
profile文件中CachedPagesNum什么意思呢
be 节点报:create table failed. status: Invalid argument: starlet err Invalid sys.root configuration provided!
刷新异步物化视图进度一直卡在96%,正常情况很快就会刷新完
Java UDF
swap替换底层异步物化视图后依赖底层化异步物化视图的异步视图刷新异常
get extra file size in primary table fail, tablet_id
jdbc执行union all的sql报错有多个结果集
有一个be的io 监控图一直很高 基本90多了,改怎么排查
enable_async_write_back is disabled since version 3.1.4
SHOW ROUTINE LOAD执行超时
【FE】升级2.5.21后fe启动失败
starrocks be gdb attach 调试
2.5.19FE 连接close fail
某个be节点停机维护,停机维护时长受什么参数影响,原理过程是什么
【2.5.11版本】磁盘IO占用一直保持在50%-60%
物化视图改写失败
物化视图改写有时候会报错ERROR 1064(HY000)Invalid plan
3.2.3版本 使用sort+limit 报错
be节点频繁宕机
starRocks 定时备份方案如何做
最全合集|StarRocks 精选资料库!(长期更新)
export数据到oss报错
窗口函数结果不正确 sum(b) over(order by a rows between 1 following and 1 following)
节点副本退役
ubuntu24.04编译starrocks3.3.0
odps catalog执行sql报错: Index 0 out of length 0
3.2.3 be 全部突然宕机
BE节点oom后且无法拉起
be节点下线pending_task暴增不受参数控制
create tablet empty store limit in request. 创建表失败
求助帖【core】是什么文件
2.5.16查询hive外部表不支持OBS

最好写为:
kernel.core_pattern=/tmp/core_%e_%p
因为实际生产中不一定都是root账户启动。因而不一定有/var/路径写入权限。

1赞