应IT168编辑的盛情邀请,我最终还是决定写一篇我的存储故事,不象别人恢复多少多少数据那么紧张,那明显就是管理问题与规划问题,我这里也肯定没有这样的故事,因为不允许出现这样的故事。那么,我就把故事定位在了一个很小的故障解决上,这个事情不大,但是拖了我很长时间,也最终直接导致了我对EMC CX系列操作的非常熟练,包括上架、连接、升级存储的软件版本、改变任何配置等等操作。
本文既然投稿给了IT168,那么版权就归IT168所有,转载需要注明IT168的版权。
故事起源
在早先的时候,公司大量使用过EMC的Cx系列,不过,这些设备都是从dell那里买进的,也叫Dell EMC。那是一个什么样的时代啊,我们基本上对san与存储是一无所知,而Dell呢,虽然服务是好的,技术则是一般的,所以,第一个来给我们安装配置san的dell工程师,据说因为3天都没有配置成功,被fire掉了。
而正式开始重视san,还是在一次事故以后,有几台san环境中的机器,需要搬迁,之前我们把光纤线都做了标记,但是,可能是标记出了问题,真正再插入光纤线的时候,认不到原来的硬盘了。
痛定思痛,我们决定自己掌握存储技术,从一无所知,到现在能在san,存储产品上了解这么多的东西,很多都是自己经验的积累。下面我就描述我的经历中的,一个cx700软件版本与powerpath版本之间的小故事。
1、发现问题
问题的起因是我们安装了一台cx700的存储到一个新的aix主机上,dell的工程师直接在主机上安装了当时最新的powerpath版本,PP4.5,据说是一个比较稳定的版本,而之前我们用的都是PP4.2。当一却都做好之后,我开始测试存储的速度了,发现一个问题,存储的写速度怎么也上不去,最多每秒只有60M左右。
这个速度不是cx700的表现,然后,我们就开始找问题,最初的时候,怎么也没有想到powerpath,我们先检查硬件设备,如存储,光纤连接,光纤交换机。然后检查软件配置,如主机上的配置,光纤卡的参数,都没有发现任何问题。最后,甚至重新安装powerpath,问题依旧。这个时候,已经是晚上很晚了,我们都很郁闷,现场dell的一个销售说了声,会不会是powerpath的问题,我们换回老版本看看,于是换老版本,速度也就正常了,问题居然就这么解决了。
2、查找原因
设备是可以正常用了,但是,我们谁都不知道是什么原因,之后与dell交互过几次,基本怀疑是cx700的软件版本太老,其实就是cx700的flare operating environment,当时是2.14的版本。
直到我们要安装另外一台cx700到aix主机上的时候,才发现问题不是那么简单。我们先做了raid,发现软件版本是2.14,于是就升级到了当时最稳定的版本,2.19.030,在主机上安装了PP4.5,结果发现问题依旧。
因为这次的时间比较充足,决定要求dell查找一下原因,dell于是派了一个工程师过来,这个工程师技术一般,却有一个特长,就是能打电话,他可以不停的电话别人,从中国到新加坡,甚至到更远的澳洲。原来的问题不仅是没有解决,反复的安装测试,反而导致了另外的问题,如powerhdisk盘出现了混乱,pvid也出现了严重错误。因为新的错误的出现,他的电话不得不变的更多了。
我郁闷了,决定结束这次检查,我先是删除干净,再安装回PP4.2,凭借OS的经验解决了powerhdisk与pvid的问题,因为我害怕再弄下去,我也解决不了OS上的这些问题了。
问题依旧是没有解决,这样看来不是软件版本的问题。
3、柳暗花明
我已经习惯PP4.2了,就这么用着吧,后来,新采购了新的cx700,软件版本买过来就是2.19的,这次尝试安装了PP4.5,居然一切正常,又勾起我想解决前面的问题的欲望。于是,我拿这个正常的cx700与前面性能有问题的cx700反复测试,也没有发现哪里有不同,但就是在PP4.5上速度有差别。
问题的最终解决我也没有想到,一台软件版本从2.14升级到2.19的CX700,正好要重做,于是我重做了raid,本着找问题的精神,我还是装了PP4.5,居然这次正常了。
晕,对照以前的做法,唯一不同的就是,以前是先做raid,再升级软件,就不可以用PP4.5,现在是升级软件以后,再做RAID,居然就可以了。为了确定其正确性,我找了一个软件版本还是2.14的机器,先升级到2.19,连接PP4.5,就是速度有问题,但是重做raid后,速度就正常了。
问题最终是知道怎么回事了,但是,我也是一直郁闷着过来的,这样的问题,谁能想得到呢,难道Raid跟cx700的软件也挂上关系了。我也不想调查最终原因了,如果调查,可能只能问CX700的开发人员了。
上一篇: « 弄清楚你的业务类型——OLTP or OLAP
下一篇: 还是cx系列,怎么添加/更换主机光纤卡 »
- 发表评论


