由萧何出名想到的……数据中心运维思考

“萧何是谁?”单纯的问我们一般老百姓,还真不知道。但是说到俗语“成也萧何,败也萧何。”“萧何月下追韩信”等等,似乎一下子清楚了:他呀,推荐给刘邦打败西楚霸王项羽的那个韩信的人啊。至于萧何其他事迹,则是知之甚少了。《史记·高祖本纪》中高祖曰:“……镇国家,抚百姓,给馈饷,不绝粮道,吾不如萧何……。连百万之军,战必胜,攻必取,吾不如韩信……”从高祖的结论来看,萧何本身的工作很大一部分就是刘邦的后勤部长。看历史得知萧何尤其是在楚汉战争期间,使刘邦在关中站稳脚跟,为刘邦屡败屡战,最后打败项羽提供了源源不断的物质和兵力支持。

为IT系统设备提供稳定运行平台的数据中心,好比是为战场前线提供支持的大后方,相关的运维人员的工作和萧何的本职工作何其相似。古今中外,赫赫有名的将帅不可胜数,太多了。而在战争期间,对于负责“兵马未动,粮草先行”的后勤部队而言,他们的长官的名字在史书的记载中,可是凤毛麟角。而萧何作为大后勤部长,似乎也没有做出什么出名的成绩,假如他为了突出自己的成绩,这样写自己的总结:“······本年度为前线提供粮草X万石,提供兵源十万······”;前方将领看到后一定骂死他:“你的意思是我们损兵折将起码十万了?······”刘邦为了全局出发,也会斥责萧何的。在《三国演义》中出了一个有名的“后勤部长”—王垕:在曹操和袁绍的官渡之战中,曹操缺粮,为了稳定军心,争取时间的主动性,杀了运粮官王垕,使王垕成为替罪羊,为整个战争的胜利提供了一定的保障。在战争期间,一线最重要,所有的工作都是为战胜敌人服务的,以大局为重。我们一般认为萧何的出名很大程度沾了前线名将韩信的光,毕竟在以后的传承中似乎萧何没有韩信的名气大。虽然如此,西汉建立后,刘邦在分封大臣时,萧何位列众卿之首,被称为“开国第一侯”;“汉初三杰”之首。

一般而言,每个人都想在自己的工作中做出成绩,受到表扬,扬名立万,但是由于每个人所从事的工作不同,有的工作正常来说是很难出名的,比如数据中心运维相关工作:数据中心基础设施的运维工作,从来没有走到前台,一般人们看不到他们的身影,甚至不知道他们的存在,相关的设施设备的巡检、检修、维护等都是在立足于影响最小的情况下完成。随时当前信息技术(IT)的发展,使得对整个系统运行安全、运行效率的要求也越来越高,这就对为信息系统平稳运行提供平台的数据中心机房等基础设备的稳定性、安全性、可靠性等提出了更高的要求。相应的其安全性等也越发的重要。所以一旦基础设施出了问题,大到甚至或者影响到了相关业务的正常,无论从经济效益,还是社会影响等各方面,负面影响都是巨大的。这样的出名后果是可想而知的。这其中最大的出名就是火灾。

看到上面的图片,许多人都会嗤之以鼻:这不是PS的吗,这是假的等等类似的评论:确实,这图片不是真的。试想一下,真要是机房失火,相关人员不是忙着逃生,就是忙着灭火,谁还有工夫或者时间去找相机、调试焦距等认真的拍摄失火的现场呢?一般人总认为数据中心都配有完善的消防器材、设施,并备有温感、烟感等报警器。防火纯粹是小题大做。殊不知,一旦数据中心失火,到了灭火的程度,意味着事发地点的所有的设备都要受到牵连,后面的影响将是巨大的。下图为例(这个绝对不是PS的!)

这可是真实的火灾后的现场照片,触目惊心。

防火贯穿数据中心整个生命周期。为此对于数据中心的火灾一定要有“隐患险于明火,防范胜于救灾,责任重于泰山。”的思想意识,时刻牢记“安全第一”这根弦。在数据中心的生命周期中,测试验证是数据中心运维的起点,如果没有意识到测试验证的重要性,可能因为各种缘由把这个重要的步骤省略掉,这样疏漏很容易导致后期运维的重大隐患,魏徵在《谏太宗十思疏》中的首句“臣闻求木之长者,必固其根本”就是这个道理。数据中心主要服务的对象是IT系统。在其几十年的生命周期中,IT系统的变动却非常大。IT技术的变革同时也带动了关键基础设施技术的不断变化,所以还要关注一些关键基础设施的生命周期。这些关键基础设施的生命周期由多方面的因素所决定的。其中新技术的发展是数据中心关键基础设施更新换代、周期缩短的主要原因。这就要求运维人员也要紧跟时代潮流,不断了解、学习业界最新的动态、技术,与时俱进。在保证安全的前提下,采用新的技术来处理和解决问题,以减少处理的时间和风险。为相关设施的更新换代提供参考或者技术支持。安全性、可靠性是数据中心运维最基本的要求,因此日常的检查、维护、保养计划等一定做精做细做全,做到可预防性维护。同时根据各类设备的特点还要“具体问题具体分析”,如IT设备上架,要提前查看空开的容量等;夏季多关注空调的冷凝系统,防止高压报警等;冬季多关注空调加湿系统,防止加湿故障报警等。虽然各种新的绿色的或者先进的技术层出不穷,但是采用相关技术或者设备一定要采用成熟、稳定的—安全第一

总之,数据中心基础设施的运维是一项非常关键的、又是一项枯燥的、重复性很高的工作,其工作的特性就是运维正常是应当的、必须的,出现问题绝对是禁止的;数据中心基础设施推行的是风险管理和预防性维护策略,风险一定要及早控制或消除,因此必须做到:

一、建立完善的巡查和维护、保养、应急处理等机制。

二、采用与时俱进的动环监控、报警系统。以减少误报、漏报的发生。

三、相关人员的责任心、行动力至关重要。毕竟人才是最重要的因素:才是解决、处理问题的关键。扁鹊大哥擅长的是“事前控制”、“治未病”、防患于未然、无为而治才是解决问题的最好方式或者最高境界。借用一位老运维人士的话:宁可默默无闻,不当救灾英雄。

网友评论comments

发表评论

电子邮件地址不会被公开。 必填项已用*标注

暂无评论

Copyright © 2012-2017 YUNWEIPAI.COM - 运维派 - 粤ICP备14090526号-3
扫二维码
扫二维码
返回顶部