关于数据中心运维管理的书籍很多,但本书不落俗套,令人耳目一新之处在于:
? 资深的主创团队
本书支持单位和主创团队绝大多数参与过《数据中心场地基础设施运维管理标准》的编写;
? 业内罕见的揭秘深度
本书由国内运维经营们联袂创作,其中不仅有成功经验,还有对挫折和教训的反思,甚至还有惊心动魄的数据中心火灾过程。
? 新颖的内容布局
本书的两大部分,“运维人手记”和“关键设备运维指南”,既有内容丰富有趣的小说,还有专业的运维知识介绍。
们对运维要点的经验之谈。
本书由实战经验丰富的数据中心运维达人、专家,以运维人手记的方式,分享这些年踩过的坑、蹚过的雷,不仅有成功经验,还有对挫折和教训的反思,甚至还有惊心动魄的数据中心火灾救援过程。内容分为两大部分,“运维人手记”和“关键设备运维指南”。第一部分是通过虚拟人物——运维人Peter和Tom,以小说体的形式介绍运维人员在实际工作中会经历的那些事儿。首次汇聚了业内运维精英的实操案例,有助于运维人员从别人的教训中吸收经验,降低自己犯错的概率。第二部分是由数据中心核心设备供应商们讲述数据中心的主要设备在运维过程中需要注意的要点,体现了厂商的多年技术积累和经验之谈,有助于运维人员提升设备维护水平。
本书适合数据中心运维工作人员、企业管理者,以及对信息系统和数据中心运维感兴趣的各界人士阅读。
Chapter 1 运维经理人手记
1 初来乍到
在北京城难得的蓝天下,Tom 抬头望着眼前这座宏伟的建筑,心里不由得赞叹:这就是传说中的“数据中心”?这座单体建筑,从外表上看不出里面有几层楼,但Tom 的直觉告诉他这个建筑的面积得有2 万~ 3 万平方米。比起Tom 同学之前在一家国企负责的300 平方米机房,这个建筑就是“巨无霸”了。300 平方米的机房虽说是麻雀虽小,但也五脏俱全。UPS、配电、空调、高架地板、监控,各种专业的设备该有的也都有了。一手负责建设了个300 平方米机房,还运行了5 年的Tom 同学,觉得自己也算是半个机房专家了。但不知道从哪天起,周围的人都开始管机房叫数据中心了,Tom 原来一直感觉数据中心比起机房,就是换汤不换药的时髦叫法,纯属某些厂商忽悠出来的概念。但今天看着这大型数据中心外面的专用变电站,Tom 开始感觉到这数据中心确实和自己负责的机房有点不一样。自己要干好这大型数据中心运维的活,还真有不少新知识需要学习。
Tom 是上个月决定跳槽到这家数据中心来做运维的。其实Tom 对于自己一手建设运行的机房还是很有感情。只是这几年公司的业务发展很快,除了国内的业务,还有不少国际业务,这就对他们IT 支撑部门提出了24 小时不间断运行的要求。Tom 带领着一个小团队,负责公司唯一的数据机房的运维,从基础设施日常维护,到服务器上架和配置、故障处理,都得亲自上阵。尽管没日没夜、兢兢业业地忙碌,却还是免不了出各种状况。Tom 原来的老板是科技部总经理,搞软件出身,对业务开发非常关注,但对运维却不太重视,总觉得运维就是简单重复的事情,没有太多价值。因此,老板在Tom 团队的人员编制上卡得很紧,又不让请外包。Tom 就经常捉襟见肘,疲于应付。终于有一天,积重难返,各种问题集中爆发。一方面,工作量大得让他们晕头转向;另一方面,他们因为疲于应付满足业务的需求,疏于质量流程管理,机房掉了一次电,影响了业务连续性。因此,他们部门被业务投诉,被领导“修理”。Tom 感觉再也坚持不下去了。他想改变,立即改变,一刻也不要等!
人生最幸福的事情,莫过于:你想睡觉时,刚好有人送来一个松软的枕头,还有一个温暖的被窝。这天晚上,已经很晚了,Tom 没有收到枕头,却收到了一条微信。发微信的人是Peter。
Tom 是去年在一次研讨会上认识的Peter。Peter 是数据中心的前辈,当时正在负责一个大型绿色数据中心的规划,讲起PPT 来两眼放光、口若悬河,号称他正在设计的数据中心是国内领先,国际也领先。Tom 在下面听着,对Peter 先生的敬仰如滔滔江水连绵不绝。休息时赶紧主动递了张名片,聊了一会儿,越发地佩服这位言谈中时不时带着几个英文单词的专家。而Peter 也很欣赏有着丰富一线经验的Tom。两人聊得甚是投机,加了微信,常有联系。却说Peter 在IT 和通信行业干了十多年了。国企干过,外企也干过,最大的优点就是英语好,还爱学习,肯钻研,知识面特别广。所以,行业里每次有啥新浪潮,他总是弄潮儿。虽然Peter 是做IT 出身的,但自从美国人开始聊绿色数据中心、PUE 啥的,他就开始在国内发表文章,纵论绿色数据中心设施的各种趋势。所以,各家办研讨会也经常请他去给露个脸、讲个话,因此Peter 也在行业里积累了不少粉丝。有一天,他所在的单位要建一个新数据中心,英语好又懂数据中心的Peter 就陪着领导去美国溜达了一圈。在回国的路上,领导语重心长地对Peter 说:“我们的目标是要建设一个二十年不落后的数据中心,这件事就交给你了!”
……
Part 1 运维经理人手记
Chapter 1 接手运维\5
Chapter2 人员与组织\21
Chapter3 网络运维\33
Chapter4 培训与演练\45
Chapter5 运维安全\61
Chapter6 巡检\73
Chapter7 维护\87
Chapter8 操作流程\99
Chapter9 应急处理\113
Chapter10 服务器上架\129
Chapter11 高效运行\143
Chapter12 获得第三方认证\157
Part 2 关键设备运维指南
Chapter1 高低压配电操作及维护指南\175
Chapter2 备用发电机系统操作及维护指南\197
Chapter3 UPS维护指南\221
Chapter4 蓄电池维护操作指南\237
Chapter5 冷冻水型空调系统维护指南\265
Chapter6 风冷型空调运维指南\299
Chapter7 综合布线系统运维指南\317
Chapter8 KVM系统操作及维护指南\335
Chapter9 DCIM维护要点\349
Chapter10 运维操作管理系统DCOM使用指南\365
Appendix 微模块介绍\377
随着上层应用、内容和流量等业务的蓬勃发展,大数据和云计算成果大范围应用,数据中心行业面临前所未有的发展机遇。与此同时,超大型、集中化、定制化数据中心的出现也为其运维管理带来更为严峻的挑战。《从运维菜鸟到大咖,你还有多远》一书应时、应势而生。用通俗易懂的预研、深入浅出地展现了大型数据中心专业化运维管理的方方面面,把从业者从传统DC带入到新型IDC服务,使数据中心可以更好地服务于互联网,服务于客户,为吃从业者的专业运维工作提供了有益的帮助,是一部不可多得的经典之作。
——文静 中国移动政企分公司云计算中心总经理
市场风云机会,互联网经济的发展离不开以企业家的责任感,以匠心精神耕耘专业。于高处着眼,于低处着手。这是一本有责任感,有专业精神,而且独具匠心的心血之作。
——曲颖 伊顿电源大中华区总经理
运维工作决定着数据中心能否正常运行和所期望的功能能否实现。运维人员随时要惦记着系统运行是否存在隐患,系统是否具备连续运行的条件,设备故障是否可以快速修复,系统是否可以根据需要扩容,如何进一步提高运行效率等问题。运维工作不单单是设备维护,就目前情况来看,当务之急是确立正确的运维管理观念和提高运维人员技术水平。本书从众多一线员工的实际经验中取材,用生动的语言介绍了什么是正确的运维管理观念,以丰富的故事案例讲述如何做运维。这是一本非常有意义的书。
——张广明 中国科学院计算技术研究所研究员、中国电源学会专家委员会主席
信息系统运维是当下各行各业信息化建设的关键。老朋友程小丹先生领衔撰写的新书《从运维菜鸟到大咖,你还有多远》,内容充实,视角独特,既包括引人入胜的运维经理人的成长故事,又包括专业的信息技术设备运维要点解读,深入浅出,令人难以释卷。无论是数据中心运维工作人员、企业管理者,还是对信息系统和数据中心运维感兴趣的各界人士,都值得认真翻阅此书。
——刘九如 电子工业出版社总编辑、华信研究院院长