知识位置

体系: 运行稳定性与排障 层级: 排障 前置知识: Linux技巧【持续更新】 强关联: 关于DELL PowerEdge报错Correctable memory error logging disabled for a memory device的说明 原始来源: source/_posts/异常宕机BMC日志无参考价值时的排障思路.md 关系规则: 只保留学习或排障上有直接依赖的边,避免为了双链而双链。


巡检发现异常宕机,带外日志仅有一条热复位的记录

BMC日志如下:

SYS_Restart 系统启动/重新启动 开始热复位 - 触发

仅有一条热复位记录,无物理按键记录,无操作系统发起重启记录

排障思路命令
排查启动日志`journalctl -b
排查内核缓冲区dmesg --level=err,warn
排查是否有内核崩溃转储文件ls -la /var/crash/
排查是否有硬件错误`journalctl -k
排查watchdog是否触发`journalctl -k
排查过热日志`journalctl -k
检查内存不足事件`journalctl -k
检查 CPU 或 I/O 阻塞sar -q -f /var/log/sa/sa10
检查内存错误计数`dmidecode -t memory
检查电源日志`journalctl -k