因为ups问题导致数据库小型机及存储等断电,hacmp不能启动,
发现jzpt1上的硬盘识别有问题,原来硬盘是从hdisk0--hdisk11,现在是hdisk2到hdisk9没有了,后面从hdisk12之后有不少硬盘,通过rmdev-Rdl
hdisk2到所有末尾硬盘,cfgmgr-v重新识别,但是在importvg时报错,
0516-082lqueryvg:Unabletoaccessaspecialdevicefile.
Executeredefinevgandsynclvodmtobuildcorrectenvironment.
0516-082lqueryvg:Unabletoaccessaspecialdevicefile.
Executeredefinevgandsynclvodmtobuildcorrectenvironment.
0516-1140importvg:Unabletoreadthevolumegroupdescriptorarea
onspecifiedphysicalvolume.
所有新识别的硬盘均没有pvid
通过如下命令:
chdev-lhdisk2-apv=yes,报错:
Methoderror(/usr/lib/methods/chgdisk):
0514-047Cannotaccessadevice.
采用如下方法解决问题:
rmdev-Rdlhdisk2
rmdev-Rdlhdisk3
。。。。
rmdev-Rdlhdisk11
删除所有磁盘
rmdev-Rdlfcs0
。。。。
rmdev-Rdlfcs3
cfgmgr-v
发现所有pv均出现了pvid
但是发现
jzpt1上的hdisk2-hdisk8和jzpt2上的pv顺序一致,但是同样属于datavg的hdisk9(在jzpt2上)在jzpt1上却是hdisk10。出现了两机硬盘顺序不一致,
且都是datavg。看来以后在做共享vg时尽量不要用多个小的lun,而是用少量的大容量lun,以便减少这种hdisk顺序不一致的想象。
不得已,在jzpt2上将datavgvaryon,然后smittyreducevg,但是提示说将要破坏datavg上的裸设备内容。
只好采用smittymigratepv命令将hdisk9上的内容转移动到hdisk2上。转以后lspv-pdatavg,发现hdisk9上不再有内容,而hdisk2上的内容比hdisk3
等磁盘内容多。
lsvg-pdatavg
datavg:
PV_NAMEPVSTATETOTALPPsFREEPPsFREEDISTRIBUTION
hdisk2active159981162..00..109..320..320
hdisk3active15991155192..04..319..320..320
hdisk4active15991155192..04..319..320..320
hdisk5active1599108764..64..319..320..320
hdisk6active1599108764..64..319..320..320
hdisk7active15991135112..64..319..320..320
hdisk8active15991215192..64..319..320..320
hdisk9active15991599192..64..319..320..320
再采用smittyreducevg将hdisk9从datavg摘掉。这样jzpt1和jzpt2上的datavg中的hdisk就保持一致了。
在jzpt1上执行smittyimportvg
vg写入datavg,pv写入hdisk2。datavg导入了。将datavg中的裸设备赋予Oracle:dba用户组。
问题解决
后来发现jzpt1的hacmp能启动,datavg也能并发拉起来,但是jzpt2的datavg起不来,于是将jzpt2上的所有存储磁盘删掉,删掉hba卡,然后重新
其实根本问题是因为操作系统没有安装存储多路径软件导致的。
上面就是AIX断电后hacmp无法启动的方法介绍了,为了避免再出现类似状况,最好在AIX系统中安装存储多路径软件。