上篇说了一个cx700与powerpath的故事,既然写了,那么也把另外一个故事写下来,个人感觉,这个故事或许比上一个故事更有意思,也更有借鉴意义,因为在实际工作中,可能会经常遇到。
故事的起源就在于我们的HA的aix主机,以前只有一块光纤卡通过一个光纤交换机连接到cx700。现在,找IBM再买了一块光纤卡,准备安装上去,通过另外一个光纤交换机连接到cx700,把双通道路径扩展成为4通道路径。
既然是HA的机器,停机问题不大,找一个晚上,约上IBM的工程师,Dell的工程师,恩,就是我上篇说到的那个很会电话的工程师,这次他表现一样不错,我们一起去了机房。
我们的想法是感觉比较容易的,不就是如下步骤末:
1、在IBM主机里面插上新卡
2、IBM主机认到卡,并状态正常
3、光纤交换机那里认到卡,能获得WWN
4、把光纤交换机的zone配置一下,加入新的卡的WWN或者是port,并enable配置
5、检查cx700的连接状态,现在是不是4个连接
6、主机上重新认盘,应当就是从以前的2个路径变成4个路径了
当然,有这么简单,就没有下面的故事了。
1与2都很正常,3的时候,如果是先认卡,再接的光纤线,主机这里需要再执行cfgmgr,其实就是给光纤交换机发一个信号,否则,光纤交换机认不到卡的WWN,这个也没有费什么时间就过了。步骤4我配置通过,步骤5,我与dell的工程师都检查了,连接状态那里的确是4个路径,都正常了,那么,开始步骤6。
我们先用rmdev -dl删除了以前的阵列上认到的盘,用cfgmgr -v去认,发现只有2条路径,甚至下了狠招,rmdev -Rdl fcs(x),把整个光纤卡都删除了,重新认,还是只有2条路径。我们就开始郁闷了,于是dell的工程师开始打电话,我们开始继续检查。
·光纤交换机肯定正常,可以看到所有的光纤卡。
·zone的配置肯定也没有错,配置都enable了
·路径肯定正常,cx700上可以看到4条通道都正常
dell的工程师电话的同时,还不忘记问IBM的工程师,“我们那里都正常,应当是你们的问题”
IBM的工程师说,“盘都认不到,应当是你们哪里的问题”
时间就这么过去了,我在想是哪里出了问题呢,其实,也就是突然间,想到会不会是cx700的store group那里有问题,正常来说,store group只是决定了哪个主机能访问哪些lun,应当不会有问题,但是,现在能与主机扯上关系的,只有他了。立即行动,我先把主机上所有的阵列盘删除,然后我把HA的主机从store group中踢了出来,确定一下。再放进去,确认,主机上重新认盘,正常了。
dell的工程师还在电话呢,我与ibm的工程师于是一起叫道,“兄弟,别打电话了,已经好了”。
这个问题是好了,发现了一个新的问题,因为我们删除的太猛,认出来的硬盘都没有PVID以及VG信息了,而这个是HA的机器,这些硬盘其实都是正在使用的,无法使用常规的方法获得PVID与VG信息,也就是说,我们不能使用正常的importvg来导入VG,也没有办法使用chdev -l hdiskpower(x) -a pv=yes的方法获得PVID与VG信息。
怎么办?这下好了,dell的与ibm的工程师都去寻求帮助去了。
寻求帮助没有什么成果,那我只能来狠的了,因为HA的机器不能执行importvg的原因,就是因为主节点也正在使用这个VG,那么临时解除这个锁不就可以了。
主节点:varyonvg -b -u vgname ###解锁
HA的机器:importvg -L vgname hdiskpower(x) ###读入信息
主节点:varyonvg vgname ###加锁
注意,以上的操作具有风险性,特别是并发系统,如RAC上是不能随便解锁的,就是单节点,解锁操作也要小心谨慎。因为我们这里在晚上,压力小,而且时间短,关系就不大了。
经过以上的操作,HA也终于正常了。再仔细想想整个经过,其实,我们就是忽略了store group那里,我估计是store group把路径信息给记录进去了(或者是缓存起来了),因为它才是最终决定什么主机可以使用什么LUN,但是他不应当决定路径个数的。而第二个问题的出现,则是因为我们急于解决第一个问题,采用了一些非常规的操作才出现的。
其实,这个问题,也不仅仅是dell的工程师没有现场解决能力,在今年的cx3-80的测试上,emc的工程师遇到同样的问题时,一样束手无策。这里说到cx3-80,其实就是cx700的一个乘以2的翻版,把前后带宽,cache容量,磁盘最大连接个数都翻了一倍,但是后端的环路并没有增加,所以,如果追求高带宽的话,是一个不错的产品,如果追求IOPS,则需要考虑一下。
这次的测试,我们中途需要更换一个光纤卡(准确的说,是4台机器的RAC,每个机器要换一张光纤卡),我徒弟与2个EMC的工程师就过去了,到下午快下班的时候,我问我徒弟进度怎么样,他说EMC卡在那里了,已经2个小时了,我问什么原因,他说新换的卡,光纤路径认不到,emc的工程师正在向总部寻求帮助。后来知道,这两个工程师是比较年轻的工程师,还没有什么经验。
我晕,同样的问题,在cx3-80上同样存在。
我说,你让他们别打电话了,我知道怎么回事。
之后,我让他们把主机从store group中拿了出来,确认后再放进去,之后,他们告诉我,有2台主机正常了,但是2台主机不正常,ft,确认他们的操作也没有问题以后,我说,你们把ip给我,我登陆进去看看。
登陆到cx3-80,我检查了一下连接状态,才发现,原来他们这台cx3-80已经给N多人做过测试,连接状态里面全是乱七八糟的主机光纤卡,我看了看那两台不正常的主机,连接状态都不对,存在一定冲突,当然改store group是没有效果了。我先把那些乱七八糟的,以前注册进来的光纤卡,先全部删除,然后重新注册这两台机器的光纤卡,OK,正常了,为了确保没有问题,我把store group再操作了一次,让他们在主机上认一下,不久,他们告诉我,都正常了。
问题其实并不复杂,知道的人都简单,不知道的人都复杂,就是这样,往往是你觉得最不容易出现问题的那里,出现了问题。
上一篇: « 我的存储人生:Cx700与powerpath的故事
下一篇: 祝广大读者节日快乐 »
- 发表评论


