探索中国CIO人才现状 | 第四季调研报告
集团管控中IT运维服务价值化
2016-12-08  作者:根据康明斯东北亚区IT服务总监孙梅女士在亦庄分舵演讲内容整理 来源:CIO发展中心

2016年11月4日CIO发展中心亦庄分舵组织了年度第5次线下交流活动。到会成员欢聚一堂,在轻松的氛围中畅所欲言,沟通工作中的心得与感触,大家虽然来自不同的行业,但在信息化建设方面却又都是同行,有很多经验可以彼此分享。

首先,亲和、热情的和利时系统工程有限公司信息管理中心副总经理刘小娟女士与其服务商汉得公司介绍了SAP内存计算技术及BI数据分析项目的实践成果。随后,富有激情、爽朗、快言快语的康明斯东北亚区IT服务总监孙梅女士给大家详细介绍了康明斯中国的IT基础运维服务理念和实践管理经验。 

图片1

康明斯东北亚区IT服务总监孙梅女士

先说说康明斯

康明斯是全球最大的独立发动机制造商,专注于柴油发动机、发动机关键零部件(燃油系统、控制系统、进气处理、滤清系统和尾气处理系统)以及发电系统。

康明斯公司成立于1919年2月,总部设在美国印第安纳州哥伦布市,公司通过其在全球190多个国家和地区的600多家分销机构和6500多个经销商网点向客户提供服务。康明斯在全球范围内拥有员工54,600多人,2015年实现销售额191亿美元。

康明斯是美国财富五百强企业,并当选《财富》2014“全球最受尊敬的企业”,是排行榜上唯一一家柴油机公司。

再谈谈康明斯IT基础设施运维

1、IT基础设施运维服务范围

当前把IT作为一个整体,作为一个共享服务的概念在业界比较流行。而康明斯由于多种原因,最终把基础构架部分在10年前整个拆分出来,以共享服务的形式成立了共享服务部门。

成立共享服务部门之后,和所有基础构架相关的,无论是基础设施建设项目还是日常的运维都在共享运维的服务范围之内。IT基础设施其模式和管理思路都可以复制,所以我们把与运维相关和与基础构架相关的又细分为如下几类:

图片2

Computing Services和业界的概念完全一致,包含有服务器托管、存储等所有应用服务设备运维服务,同时还有一种称为Legacy Application Hosting,是指那些设备技术比较老,但目前仍然在使用中的,维护成本相对比较高的一类设备,归类为遗留应用程序托管里。

Client Services定义非常清楚,基本上就是和办公电脑相关的客户端管理。比如我们的电脑,包括电脑硬件维护;全球为124个国家,提供8种语言的7*24小时热线电话服务。这部分还包括对所有软件以及软件生命周期的管理,不同的用户会申请不同的软件,我们全球的软件是集中采购的,全球的规模效应可以谈出非常优惠的价格。

Data Center Services康明斯在全球布局上,有五个数据中心,整个亚太地区的数据中心设在新加坡,另外在欧洲有一个,美国有两个。最近美国的一个数据中心的迁移正在进行中,会托管在外部。项目过程中,几千台服务器和运行的应用服务都迁移,这是个艰巨的任务为期五年。

尽管我们的网络成本比较高,但是对于一个全球性的公司来讲,若想集中管理,这样布局还是有很大好处的,同时也降低了管控风险,康明斯十年间,没有发生过因数据中心应用系统如ERP等放线超过24小时的情况,但这样维护成本也会非常高。

但是我们对服务器运维管理上与供应商制定一个特殊要求,就是要求响应时间非常快速,应特殊情况的也允许放在服务器存放在本地,我们称之为Data Closet。诸如ERP等系统会集中放到数据中心。但最近也面临挑战,新出台国家安全法对核心的数据的存放有了新的规定,如果此项规定被要求严格遵照执行,那么对于数据中心会带来一些变化。但另一方面也有好处,我们网络重要的节点比如DMZ,全球可能几千万级别的DMZ基本上都在数据中心,高度集中的方式可以尽量避免网络遇到的探测风险。

Global Account,是指大家的账户。原则上每个人登录密码的权限管理都在Client Services里面去设定。但是与核心用户相关的,所有MFG和制造相关的,在网络和服务器定义上,把制造的和办公的环境分开。这样是为了更好的保障信息安全和响应的要求,和生产线相关的,我们在VLAN网络上就把它划分开,没有特别批准的设备不允许连接到Internet上,因为生产线上非标准的设备特别多,一旦在网络上不做这种整体规划设计的话,很可能就是整个网络的一个薄弱点,所以在这方面就把MFG在规范上给划分开,进行一些控制。我们全球的几万台电脑都是统一型号,统一配置,包括CEO的。但是这个部分的差异性特别的大,从维护、信息安全、硬件等等,所以单独把它划分出来去管理。

Communication Services就是全球的所有的电话系统,包括移动电话,办公电话、广域网局域网、接SIM卡的服务、邮件、协同工作的平台等,全部都布到这里面。它目前基础运维的状况就是怎么定位以及该干哪些事情。

康明斯把IT运维单独放在一个地方做,包括IT管理,这样有一个好处就是,一旦公司以后有什么变革,把整个IT划出来,是非常容易的事情。

全球每年九月份做预算的时候把项目上报,PMO根据各地情况来给定预算,如果PMO没有批准项目,项目根本就不能启动,也不会获得资金。即便这个项目是0成本(同样会占用人力资源),若PMO未批准,一样不能实施。对于特殊项目,我们也有一个例外的审批流程,通常获得批准非常难得的。所以年度计划工作是非常重要的。

康明斯的Service Desk是和所有最终用户相关的,全球大约6万台电脑,但是我们的用户数多于电脑数,大约2000多种软件。

我们能支持这么大的数据量,在过去没有发现群发性影响重要服务的中断现象,稳定度还是很高的。

2、IT运维的服务策略和职责

康明斯IT基础架构运维共享服务做了十年,一步一步走过来,会尝试一些新的概念,新的技术,比如云。BYOD在美国测试了两到三年,由于在各国法律差异比较大,在全球公司推广运作比较困难。BYOD模式风险最多的就是软件许可合法性,比如,员工拿家里的电脑来办公室用,如果是使用的是盗版软件,那么公司要承担法律责任。还有的国家就不允许BYOD模式的引入。所以BYOD如果在大区域范围推广,技术上非常简单,但是在流程上、法规上,还有执行政策上都会有各种各样的问题。

康明斯是个全球性的公司,IT运维部门员工也就200多人,实际上大量依赖外包运营商,内外运维加起来超过1200人。我们最高领导团队是负责全球服务董事管理功能区域,包括一个或多个全球服务的基础设施。

图片3

我属于Regional IT Leaders层级,主要负责IT服务提供定期状态更新,区域和区域利益相关者和全球服务线。在信息安全方面,我们的软件架上有很多免费的软件许可供大家使用,再放入共享软件架之前需要走流程申请测试,负责测试的团队测试这个软件是否存在网络安全的隐患,只有通过测试才会被放到软件架上。软件架由我们来进行运维和维护,每月象征性的收取一定维护费,基本上是成本分摊。对于分摊的成本没有明确指标,我们需要与每个法人单位共同协商确定,同时对于我们的标准服务,因为区域的差异性,要结合各区域公司的情况落实开展,这也是我们需要来做沟通商议部分。

下一层是Global Service Owners,就比较重要了,IT基础设施的服务范围和每一条服务线的服务策略以及未来三年如何发展,都是Global Service Owners来做规划和服务设计。比如电脑,若BYOD行不通,硬件部分就是我们来负责购买,同时软件部分如何分发,都是由Global Service Owners规划实施。另外,热线电话——Call Center,一般根据业务制定好热线电话问题数据库后就可以外包,但外包人员来维护比较麻烦,索性就是整个商业模式外包,我们管理合同,管理好供应商,管理好SLA就行,至于怎么平衡整体利益就是Global Service Owners的权利和责任,他们要考虑的是全球服务战略。我们认为这种理念是正确的,但至于要不要像康明斯做那么细,还需要根据各家企业规模情况来判断。

Global Operations Leader是负责后台运维的。我们现在80%以上的人员依靠外包,外包公司按照我们的服务线给我们配备团队而且相当有效率。事实上我们全球网络维护的团队不超过15人,7*24小时,维护现有设备,但是康明斯在全球这么多点,会定期更新设备,这些变更也都算在基础运维里面。所以坦率的说,我们的外包公司生产力还是很高的。这15人搭配比较合理。

我们的外包公司专家团队不超过40%,60%就是日常值班的,但那40%的专家团队非常厉害的,整个外包公司在印度的园区大概有25,000人,也就是说如果支持我公司的团队不能满足我们SLA有重大中断时的相应解决,那么这个外包公司会在25,000人里调出最厉害的人帮助我们解决问题。这也是运维里需要考虑的。对于外包公司来说在中国区的收入只占全球收入的6%,所以更多服务还是向总部还有欧洲倾斜,可以理解,外包公司资深的经理一般在晚上跟美国时间上班。

我们的独资工厂都是有全球标准的,但是在中国我们还有许多合资工厂,合资工厂有时候是不需要这么高大上的服务的,价钱合理并且给予一些服务和支持就可以了,但是因为涉及到组织构架状况,我们没有办法去招高级的专家处理问题,就会采取找本地的供应商去提供服务。所以就要求我们的供应商需要在国内我们的45个分布公司里面的一、二级城市要服务人员,可以随时到出事的现场解决问题,其次解决问题的能力还要很强。这一下就把我们外包资源筛选的特别窄,所以目前我们合作多年的是神州数码,但他们也不是一开始就能做到这个要求的。但是之前我们合作过东软,甚至联想这样规模的供应商,但是当企业有疑难杂症的时候,要找供应商既做服务本身也卖硬件产品,又有很多服务工程师,供应商本身的专家池就很重要。

3、IT基础设施服务概述

图片4

ITPM是康明斯标准的项目管理,针对公司业务的情况,把整个IT 运维服务流程的管理标准化、经验化。有一些适用于美国的法令、法规的政策,都被集合在一起,简化了管理批准流程,规避了法律和审计方面的问题。康明斯在这部分标准化工作上花费了大量的时间和精力,值得借鉴。随着国内的公司的成长,现在和未来都会有跨出国门去海外投资建设公司的情况,遵循当地法规规范IT运维服务流程尤为重要。

提供服务一定要有标准化的流程来支撑,我们跟供应商的SLA标准,都是与质量标准相匹配的,当然稳定性标准也直接关系到你的投入。举个例子,我刚进入康明斯的时候,公司人跟我说公司的应用托管特别的贵,贵到什么程度,上一套ERP,20个用户,一个月是1.5万美金的维护费用。当时指定的M5000的一个机器,特别高大上,连测试环境都有安全上的要求,测试环境和正式环境必须物理隔离,买两套设备就非常贵。我们当时和客户签的是稳定性是四个九99.99%,7*24小时全年服务,所以自然要付这么多钱。但是在前年,公司又考虑了下运维成本和业务增长,把我们的SLA变成三个九了99.9%,成本略微下降,直接见效!

容量管理,甚至一些关系管理,包括事件管理,基本上这些流程都是依照所有的概念去做。因为没有这些,就没有办法快速识别出到底什么引发了问题。基本上98%都是变更引起的,然而这个变更到底怎么发生的,改变了什么?如果不知道,那就是流程没弄好。这也是在运维里比较重要的部分,靠人治是不行的,一旦这个人员离职了或者休假了,那出了问题都要等待。

关于基本的服务质量和安全管理,还有业务连续性,不仅仅局限于IT,它是一个业务计划,业务持续计划。在这点上大家做MES系统时一定要注意,我们在几个合资工厂上MES,一旦系统停掉了,业务部门为了保证产品质量,就全线停产,超过4小时就放假回家,这个压力相当大的。所以要看公司的产品生产和MES系统依赖性有多大。我们所有2000年以后建的工厂,都是属于系统一旦放线,全厂放假。假如中国的国际光缆断了并且几天内无法恢复,生产BOM从美国传不过来,无法生产。针对这种情况,IT运维部门要和业务部门一起制定业务持续计划。这不仅仅是IT的工作,而是整个工厂业务持续运行的保证计划,需要业务高级领导一起参与和实施。通常我们会直接沟通到GM,同时也直接沟通到合作伙伴,若不能认可那就要想办法解决,比如拉卫星的网络之类的备份线路,但是对于业务的持续性保障计划不提前沟通,网络终端这种问题就是IT的问题了。

我们所有网络都是双核心,在网络层上有保证,在应用层上也做好保证,关键节点要求至少有备机,而且在这方面我们有控制流程,确保设备的更新换代。在我们是合资工厂,我们仅仅提出建议,合资工厂自己决定设备的升级和更换频率。对于独资工厂,为了保证高稳定性,通常服务器3年就要更换,例如EMC我们都是租用的,五年一定都换了,备份也全部都换。高稳定性很大程度上是靠一定的的成本来支持的。

关于交付,可以这么说,我们收费的条目越细,管理成本越高,被别人挑战的地方就会越多,所以像我们这个运维团队人员不是很多,但我们整个部门全球200多人,有6个人专门帮我们算账,他们属于专门的IT财务。在中国区我们也有自己的财务,还有两三个人帮忙,这部分工作量很大,各家规模不同,但概念相通。

目前,我们IT运维属于共享服务部门,在这个部门里还包括:人事和财务的共享服务。从共享服务的概念来说。再下一步我们的机会在于突破职能部门的界限整合我们共享服务, 给我们的用户提供一站式的端到端的跨职能的共享服务。比如,一个新员工到职的时候,IT、人事、财务等都在一个共享服务中心,告诉新员工,入职的第一个月有哪些服务我们会提供,大概服用是多少。不再会三个部门分别提供各自的服务给新员工了。这整个入职过程中,新员工不必关心那个部门支持她,而是那些服务她会得到。例如:提供电脑,做培训,办理银行的工资卡,信用卡、社保、福利等等,报销,出差的流程系统培训等。每一项都有一个服务标准,基本上新员工没到岗的前一周,所有东西都已经弄好了,入职第一天就是要参加培训了。

如果注重外包资源,监控平台是由外包资源提供还是自己来建设这个问题,拿我们公司举例,康明斯比较保守,包括流程系统、管理系统都是自己建设,外包人员必须跟随我们的流程设计来做事。当然这需要很大一笔投资,但好处在于换任何外包商,这系统、流程都在,是稳定的,同时也不会存在两家公司互通资源通信的时候的带来风险,这是保守企业的做法。所以监控工具我们现在自用BPM,也是一个比较贵的平台。所以一般公司的服务器数量若超过50台,又没有比较成熟的监控工具、网络设备,做维护就很困难,基本上就依赖人和供应商了。

康明斯也尝试了一些云服务,但没有想象的那么乐观,开始我们想用IaaS,感觉很专业,但沟通后发现我们得签三四个合同而且需要很多人一起来做。当时我们想用IBM的产品来做大数据,可是IBM的服务软件许可特别贵。对比起来微软的比较便宜,因此我们就转到PaaS平台上,但实际接触中远远没有想象的那么美,微软在华通过世纪互联来落地推广实施,世纪互联的SLA是非常宽泛,比如一项服务我们要求两个小时做好,他承诺三天,额外的附加服务合同需要再跟微软签订,我们在这方面非常纠结,而且我们还会买微软的咨询服务,CPU和应用的匹配,一定是专家来设计的,那么就要常年签合同,所以说云服务,远不像想象的那么简单和省事。但是我们的运维服务的量不大,第一年才5,000台发动机的数据采集,是很小的量,但即便是这样我们在设计基础服务构架的时候,会把所有的服务体系都做好,然后再能开始实施。康明斯在美国首先尝试采用AWS云服务,并选了微软本地的服务。

所以基本上康明斯80%的资源来源于外包,IT内部团队主要管控流程制定大的方向。去年和前年,网络方面问题特别多,今年除了挖路挖断电缆导致网络断线以外,其他基本没出什么问题。今年我们所有中级别以上的站点都在做网络、核心应用的切换,有双设备条件的能够做到备份就尽量实现。线路备份也公司觉得成本高,同时也能接受偶尔异常断线,如果不幸赶上在月底结账的时候非常忙,那我们就可以去城市的另一个工作点去上班。

把单纯的技术型工作外包,这让我们有精力来做演练,通过演练发现流程上的问题并进行改善。内部团队在关键服务性应用保有人才,比如服务器和网络是有内部技术专家的,桌面电脑方面是就是流程专家和服务管理,此外我们还要做一些客户关怀方面的工作。基本上这些就是康明斯的IT基础设施服务共享的内容。

注:CIO发展中心亦庄分舵是在CIO发展中心协助下发展起来的区域性分部,成员由工作、生活在大亦庄的信息化主管们组成,他们来自能源、电子、广播、制药、汽车等多个行业。区域性活动旨在促进资源共享、交流学习,共同提升整体的企业信息化建设工作能力。

图片5

----------------------------------------

CIO发展中心 CIO QQ群: 129918886

CIO发展中心 CIO QQ群是CIO发展中心专门针对甲方CIO群体建立的实名制知识共享和交流平台,旨在方便CIO们互相沟通、交流和共同提高,欢迎并诚邀甲方CIO/IT负责人加入,申请时请提供姓名,职位及公司邮箱。 

640

CIO发展中心官方微博:http://e.weibo.com/ileader

----------------------------------------

关于猎头业务:

2006年来,CIO发展中心已经累计举办了300场IT经理至CIO级别的交流类会议、论坛及沙龙,直接接触到近万名CIO及IT精英人士,拥有大量的IT行业中高端人才储备。2015年我们厚积薄发,发力于CIO及IT高管、互联网人才的垂直猎头服务。

从2015年开始猎头服务至今我们成功运作20+企业CIO&CTO岗位的推荐,拥有1000+实力候选人资源和不断增长的人才库。

CIO发展中心,一家集CIO人才库和猎头才华于一身的垂直猎头机构。

请随时关注我们的微信公众号中“找马”栏目

----------------------------------------

IT之道-CIO QQ 群: 129918886

CIO发展中心CIO QQ群是CIO发展中心专门针对甲方CIO群体建立的实名制知识共享和交流平台,旨在方便CIO们互相沟通、交流和共同提高,欢迎并诚邀甲方CIO/IT负责人加入,申请时请提供姓名,职位及公司邮箱。