前几天我们公司的一个服务器宕机了,ping不通ssh连不上。只好让IDC机房工作人员帮我们重启我们的服务器。重启完之后赶紧查看日志,但是自身服务日志并没有报错。接下来就是分析硬件问题了。我们服务器是DELL的,经理让我安装了一个DELL的检测工具。
DellSystemE-SupportTool(DSET)这个工具可以用来收集服务器硬件信息,存储信息(RAID卡,硬盘等)。及linux驱动,服务,网络设置等等,同时又包括CPU,memory,ESMlog,BIOS/firmwareversionsandsystemhe alth(fan/voltagelevels).
下载地址:
http://support.dell.com/support/topics/global.aspx/support/en/dell_system_tool
安装步骤
1授予权限执行这个可执行文件
[root@www~]#chmod+xdelldset_v2.2.0.122_x64-A00.bin
[root@www~]#./delldset_v2.2.0.122_x64-A00.bin
。。。。。。。。。。。。
PARTICULARPURPOSE,TITLEANDANYWARRANTYOFNON-INFRINGEMENT.YOUWILL
USETHESOFTWAREATYOUROWNRISK.DELLSHALLNOTBELIABLETOYOUFORANY
DIRECTORINDIRECTDAMAGESINCURREDINUSINGTHESOFTWARE.INNOEVENTSHALL
DELLORITSSUPPLIERSBERESPONSIBLEFORANYDIRECTORINDIRECTDAMAGES
DellLicense(42%):Pressspacebartoviewnextpage,'q'toproceed
2,按q之后出现是否接受协议,直接按y
DELLORITSSUPPLIERSBERESPONSIBLEFORANYDIRECTORINDIRECTDAMAGES
Doyouacceptthetermsofthislicense?(y/n):
3,按y之后出现如下提示
DellSystemE-SupportTool(DSET)Options:
Chooseanoption:
1)ReadDSETReleaseNotesFirst
Showlatestinformationconcerningfeaturesandknownissues
2)CreateDSETReportOnly
CreatesaDSETreportandsavesittouser'shomedirectory
3)ClearESMHardwareLogOnly
OnlyclearstheESMHardwareLogcontents
4)Install/UpgradeDSETApplication
PermanentlyinstallsorupgradestheDSETapplicationforrepeatuse
Enteroption(1-4)or'q'toquit:
4,选4安装
InstallLocation:
WhereshouldDSETbeinstalled?
Defaultlocation:/opt/dell/dset//默认程序安装位置
PressReturntoacceptthedefaultlocationor
enteranewdirectorypath:
Directorydoesnotexist.Create?(y/n):y
Preparing...###########################################[100%]
1:delldset###########################################[100%]
InstallationofDellSystemE-SupportTool(DSET)complete.
Enter'dellsysteminfo'fromaterminalshellprompttocreateareportfile.
5,查看帮助
[root@www~]#dellsysteminfo-h
DellSystemE-SupportTool
@CopyrightDellInc.2004-2008Version1.6build135
Thegivenoptionisinvalid:['-h']
Usage:dellsysteminfo[-options][-ffilepath/filename]
Options:
-fSpecifyafilename,apathusingdefaultfilename,orboth
--nohardwareSkipscollectinginfoforallhardwarecategories
--nostorageSkipscollectinginfoforallstoragecategories
--nosoftwareSkipscollectinginfoforallsoftwarecategories
--nologsSkipscollectinganynon-Linuxlogfiles
--timeAppendreportfilenamewithtimestamp
--silentAcceptdefaultsandpreventuserprompting(forscripting)
--advancedCollectvariousadvancedlogs(maycreatelargereportsize!)
6获取系统报告,-f指定报告位置在/home/report.zip,这里会等一段时间,这是他正在检测系统硬件系统,存储系统和操作系统信息,检测完,/home/目录下回产生一个report.zip就是我们要的报告
[root@bogon~]#dellsysteminfo-f/home/report
7查看报告内容。
使用ssh工具把report.zip下载到我们本地计算机上,然后解压缩包,密码dell
8解压缩完了之后,双击dsetreport.hta打开报告内容
9系统总体概览
10硬件日志。这里看到我们的cpu有一个出问题了。
11下面这里我们硬件日志,这里我们看到,6月17日22:22:03首先在检测到设备0上有错误,接着就是6月18日21:50:55内存发生持久错误,中间重启过一次系统,正常了一段时间,有出错。最下面是从6月27号又开始出现错误,我们又重启了系统。
12以下这些是软件信息没有什么错误,是有关操作系统。下面这个是启动项信息
13驱动及模块信息
14开机启动过程信息