探索中国CIO人才现状 | 第三季调研报告
独家调研:IT运维监控重心由基础设施向业务数据转移
2022-02-28  来源:CIO发展中心

随着信息技术的不断深入发展,以大数据、云计算、人工智能等为主导的新兴技术,将我国IT行业带入高速发展的快车道。相关数据显示,2020年,我国数字经济规模达到39.2万亿元,占GDP比重为38.6%。2021年上半年,电子信息制造、软件和信息技术服务业等多个数字经济核心产业增速超过20%,电子及通信设备制造、电子商务服务等重要领域投资增长超20%。尤其是在企业业务进行数字化转型后,更加依赖于各个应用系统,充分挖掘数据价值成为一项重要的工作。 

从中长期来看,各类企业都将加强内部控制并实施精细化管理。作为企业信息化建设和精细化管理不可或缺的有机组成部分,IT运维监控将被越来越多的企业或机构采纳并逐步实施,某产业研究院预测2025年,运维管理行业规模将达到3668亿元左右。针对IT运维监控这一话题,CIO发展中心联合脉时云,于旗下社群内发起问卷调研,本次回收样本数量为62,在受访者的反馈中,我们也总结出了一线IT人员对于运维管理监控的看法。 

IT运维监控领域现状

本次调研过程中,合作方脉时云CPO李乐也向我们阐述了IT运维监控调研的大背景,他谈到:“就问卷的结果来说,从互联网行业和非互联网行业两个维度来看,互联网行业拥抱云的趋势是非常明显,并且程度很高,有85%的企业都已经应用到了多公有云等云平台。此外非互联网行业目前上云的企业比例也很高,80%的企业采用了混合云或者多公有云的形式,而不仅仅是单公有云,总的来说企业上云成为一个大的趋势。”

此外他还讲到:“另外一方面,企业上云之后,对于云原生技术的应用也非常普遍,新趋势必然带来新的挑战,监控这一领域并非是一个新兴的领域,只是在IDC阶段,更多以基础设施的监控为主。但是上云以后,云厂商针对这些基础设施,已经自带了非常成熟的监控,设备以及系统运行情况非常清晰。因此随着云原生应用的不断增加,大家把目光转向了应用中产生的大量业务数据,这一趋势是目前能够看到的。”

如今大部分企业走上了上云之路,那么对于不同的企业来说,受到各种因素的影响,往往大家都会采用一种适合自身企业发展的云环境,在本次受访者所在企业中,有21%采用单公有云的环境,有13%采用多公有云的环境,66%采用混合云的环境。总体来看,IDC+公有云的混合模式,是大部分企业当下的云环境。 

2501.png

企业的规模从一定程度上决定了IT团队的规模,而再细化到运维团队,各类企业差异明显。下方指标则反应出了当下大部分企业运维团队的规模情况,在回收的样本中,有30%的企业运维团队人数小于5人,有34%的企业运维团队人数在5-10人之间,有15%的企业运维团队人数在10-20人之间,有21%的企业运维团队大于20人。从以上数据中能够看出,运维团队超过10人的企业占到了36%,当下来看,数据略为保守,随着大家对于IT运维的重视程度的逐步加强,这一数据未来可能还会持续增加。

2502.png

重心向业务数据监控转移

针对为何关注IT运维监控,李总谈到:“这是因为站在运维部门的角度来看,企业上云以后,一定希望更好地将机器与资源管理起来,这是第一诉求。通过对企业现有资源的监控优化成本,了解到业务的健康情况。第二诉求则是希望能够更好地服务于业务部门,这样才能充分体现出运维团队的价值。在回收的问卷中,我们设置了一个问题是您现在使用哪些产品,接下来想要使用哪些产品?受访者的反馈能够看出,大家对于基础设施监控的诉求并不多,而是更加关心像APM、日志监控、安全监控方面的问题,大方向也在朝着业务监控来转移,当然就目前来说,想要做到高效完善的业务层面的监控,还是任重道远。”

在接受调查的受访者中,有6人所在企业使用的是第三方商业产品;有26人所在企业为云厂商自带监控;有13人所在企业使用的是自建的监控系统;其中还有多种结合的监控体系,3人所在企业采用自建与第三方产品相结合;10人所在企业采用自建与云厂商自带监控产品结合;还有3位采用第三方产品与云厂商自带监控产品结合的方式,1人所在企业目前还未搭建IT运维监控系统。云厂商自带的监控系统是大家的首选,自建位居第二,二者结合排列在第三位。

2503.png

如今海量的数据和信息在各个系统中传递,对于企业来说,信息安全是不可忽视的重要环节,那么在IT运维监控的领域,大家的关注点在哪里?此题为多选题,其中有34人选择了入侵检测选项,32人选择了入侵防护选项,有10人选择了抗DDoS攻击选项,11人选择了开源软件漏洞选项,8人选择了操作系统漏洞选项。在安全方面,入侵相关选项入选率位于首位,可见防范入侵乃是重中之重,也是信息安全的最大威胁。当然除了控制住外部的风险,内部的潜在威胁也需时刻去防范,这也正是监控运维的意义所在。 

2504.png

IT运维监控的重重挑战

一般来说,一旦IT系统产生故障,或者是性能下降,那么就可能会出现应用宕机、系统瘫痪的风险,进而影响业务的效率。通过对IT系统等资源进行运维和监控,全面掌握各类系统的技术性能参数,提前发现问题隐患并预警,才能将故障扼杀在萌芽中。当然整个过程并非易事,其中面临着巨大的挑战。主要来自于以下3个方面:

工具繁多,手段复杂。前期为了释放人力,企业往往会上架多套不同的管理工具,当时利用工具减少了运维工程师的压力,但是随着工具的增多,每个管理工具都是独立运行,中间还涉及到不同的品牌商,越来越难以管理。而且每个工具间又不存在关联性,出现问题后,无法定位问题、解决问题。

管理被动,人员要求更高。“救火队员”是IT部门理解最为深刻的角色定义,很多管理员都在重复的担任这个角色。巡检网络设备、服务器、应用系统的运行状况对人员提高了要求;复杂的网络环境对管理提出了更高的要求,想要做好管理,需要具备多元化、专业化知识,但往往运维人员相互独立,不能做出整体评估。

故障不关联,IT与业务不关联。当一个故障出现时,可能会带来很多其它故障。故障处理效率就会很低,时间流逝而无法找到故障源。另外每个运维人员都负责自己最擅长的领域,很多管理员并不清楚IT资源的关联性,甚至与业务系统的关联性,这就造成了很多业务出现故障后,更难找到故障源,并及时处理。

对于这一话题,李总也进行了补充,他指出:“IT运维监控的发展路径,存在一个清晰的脉络,第一步就是基础设施的监控,这是最初要做的;第二步就要对业务相关的数据进行收集;第三步就是需要将这些收集到的数据进行整理分析,使其相互关联,将‘点’上数据转换成‘面’,这是一个最大的难点;当所有的数据统一起来以后,就可以进行第四步,也就是降噪,归因告警;第五步也就是最后一步,就是实现自动化运维,达成这一目标,那么将充分释放人力,同时降低运维团队人员流动带来的巨大影响。”

在各位受访者的反馈中,有33%的人认为在监控方面,最头疼的问题是搭建运维检测体系非常繁琐,需要多个开源系统。47%的人认为难点在于监控数据分布在多个系统,没有统一的平台;另外大家集中选择的难点还包括监控系统硬件资源消耗大,监控的探针对用户端内存/cpu消耗大等等。

针对这些问题,该如何解决?各位受访者也发表了自己的看法,有人认为应该建立相应的机制,强管理,用好管理软件,将数据进行集中管理;有人认为可以通过甲乙双方共同开发来解决相应的问题;引入第三方专业咨询公司,培养自身团队,提升专业性则也是大家提到的解决问题的一个方向。 

立足业务,决胜千里

能够预测未来数字化转型的不断深入,将对企业的精细化运营提出更高要求,有效的系统和应用监控体系,是及时发现系统故障隐患,实现系统运维的关键因素。当然基于敏捷运维需求的IT监控需要立足于业务视角,从业务可用性和资源健康性的双重角度来检视IT系统,从而满足在复杂的IT环境下实施面向业务服务的监控需求,同时通过对业务数据的整理和分析,来指导业务部门的决策,帮助IT部门建立主动化管理模式,这样才能真正实现“运筹帷幄之中,决胜千里之外”。