SUSE10 SP2/SP3 无规律死机故障解决


前端时间,在公司内部为华为事业部安装了一台测试服务器,系统是SUSE Enterprise Linux 10 SP2,在最初选择阵列类型的时候,因为是测试机,对容量的需求大于对安全的考虑,因此配置了Raid 0而不是默认的Raid 1。

但后面就发生了2次让人非常郁闷的事情,就是系统在毫无征兆的情况下死机了,在死机的时候,系统可以ping通,但无法进行任何操作,包括本地登录都不行。而在强行关机后再重启进入系统一切又完全正常,更郁闷的是无法从系统的任何日志中获取到相关的信息,这样就很难对问题进行定位了。

在这样的情况下,由于系统重新搭建需要耗费太多的精力,于是我们就打算继续观察,而这一次足足持续了接近2周的时间,在我们都认为它已经没有问题的时候,系统再次死机了,依然可以ping通,但无法进行任何操作。

如此一来,只能从各方面进行揣测了,我一边思考着,一边不抱希望的在网络上搜索着资料,结果不经意间,我找到了一份PDF文档,发现了问题的根本原因,并且按照文档中的步骤进行了处理,其相关内容如下:

问题原因:

死机原因为未正确安装阵列卡驱动所致。最常见的故障现象是SUSE10 SP2、SP3 在有大量磁盘IO 时出现IO 中断引起的系统死机,而且通常该服务器可以ping 通。

处理步骤:

1.首先确认HP Smart Array Controllers 阵列卡驱动是否安装

使用root用户登录,执行 modinfo cciss

确认description 的结果是否为 Driver for HP Controller SA5xxx SA6xxx version

如果是,则证明目前所使用的驱动是SUSE系统的默认驱动,系统并未安装HP Smart Array Controllers 阵列卡驱动。

2.下载HP Smart Array Controllers 阵列卡驱动

相关链接如下:

x86/AMD32 版本(即32位操作系统):

http://h20000.www2.hp.com/bizsupport/TechSupport/SoftwareDescription.jsp?lang=en&cc=us&prodTypeId=15351&prodSeriesId=3884082&swItem=MTX-481f8d81647643d396a84368e7&prodNameId=3884083&swEnvOID=2065&swLang=13&taskId=135&mode=5

AMD64/EM64T 版本(即64位操作系统):

http://h20000.www2.hp.com/bizsupport/TechSupport/SoftwareDescription.jsp?lang=en&cc=us&prodTypeId=15351&prodSeriesId=3884082&swItem=MTX-780e1990218446a29611f0c4a1&prodNameId=3884083&swEnvOID=2078&swLang=13&taskId=135&mode=5

这里需要注意的是,一定要选择对应的操作系统版本,如果将32位驱动误安装到了64位系统中,那么结果会很悲剧的,因为会导致驱动无法卸载和重新安装,因此安装前一定要注意。

如果不清楚操作系统版本,可通过命令 uname -a 查看,带有 64 字样的就是64位系统。

最新的HP SmartArray 阵列卡驱动 支持如下:

Version: 3.6.26-5 支持 2.6.16.60-0.54.5 - SUSE LINUX Enterprise Server 10 SP 3

Version: 3.6.24-5 支持 2.6.16.60-0.21 - SUSE LINUX Enterprise Server 10 SP 2

3.安装驱动

我的系统是SUSE 10.2 64位,因此安装cpq_cciss_3.6.24-5.sles10.x86_64.rpm:

rpm -ivh cpq_cciss_3.6.24-5.sles10.x86_64.rpm

4.升级检查

升级成功后,执行命令 modinfo cciss 检查是否成功。

如果description的结果为 Driver for HP Smart Array Controller version 3.6.24-5

则证明升级OK,此时,为保险起见,最好再重启一下操作系统以使新的驱动得到应用。

, ,

  1. No comments yet.
(will not be published)
*