探索中国CIO人才现状 | 第四季调研报告
打造高效、灵活、安全的基础架构云
2013-05-28  作者:新奥集团信息共享服务中心总经理 姚祥煜 


  大家好,很高兴有这样的机会和大家分享一些在信息化建设的思路和做法,其实今天到场的不少朋友,之前参加过我们2009年"走进新奥"的活动。当时我们在基础架构方面的一些问题、困惑和想法,经过这几年时间,利用新技术和方法得到了解决,正好可以跟大家做个分享。


新奥集团信息共享服务中心总经理 姚祥煜


  今天我讲的内容有四项,一是云的概念和我们云平台的建设目标;二是我们通过几年建设所达到的现状;三是云平台实施、建设和应用所体现的价值和感受;四是我们未来对云平台建设的希望和设想。也希望在这次交流中,能够得到大家好的建议。


  2008、2009年前后,我们有很多信息化项目上线,对基础架构的需求越来越大,应用、项目和业务支撑方面,都出现了瓶颈,我们面临的一些困惑和挑战:一是IT资源都是按项目提供,大的项目会有比较多的硬件,小的项目可能就是一台服务器,或其它较小的资源。但是我们在具体操作中,在保证资源的同时,匹配的程度不会很高,导致较低的投资利用率和较高的相对成本。


  另外在不同的系统中,使用了不同的硬件,应用团队、业务团队和基础架构团队在硬件的选型上想法不同,没有完全遵循我们的标准要求,造成硬件产品的品牌,型号和性能差异较大,后续运维管理成本高。三是有些业务方面的需求会不断增长,需要随着应用的增长对资源进行扩容,当要扩容的项目数量比较多时,资源的保证和扩容能力就面临挑战。另外很多硬件资源是以满负荷运行来计算配置的,但是上线后在正常运行状态,其资源的利用率和满负荷状态偏差很大。


  因此,在云的概念出现时,我们就一直跟踪这个技术,包括对相关设备、系统、产品和厂商技术标准的了解,花了将近两年的时间,去做前期准备工作。我们希望通过它的应用,解决刚才谈到的一些问题:一是将分散的资源整合成统一的服务平台,实现资源共享,快速响应业务变化、扩容和性能改进等方面的需求;二是从运维的角度,希望实现更好、更快、更标准化、自动化的管理和交付降低运营和运维成本;三是扩展能力更灵活,实现动态的资源调配能力,在满足高峰时期的业务需求的同时,降低整体的投资成本,提高IT资源使用率和利用率。


  基于这样的需求,我们认为基础架构云的技术,能更好应对自身的需求。出于这种认识,我们开始搭建新奥新的基础架构,首先是对所有的资源进行整合,实现虚拟化,让现有的资源发挥更大的作用。其次,是硬件整合之后,在应用和运行平台间实现松耦合的管理关系,实现应用平台的标准化。第三,实现资源使用的标准化,将原来按设备提供资源的方式改变为按照计算能力、按照新应用的性能要求来提供。最后,是能够通过自动调度,实现资源和需求的匹配。最终的目标,是建设成按需交付的平台云,包括标准的操作系统,标准的中间件和标准的数据库服务,以及相应的计算性能和存储空间,以这种方式服务应用团队或业务团队。


  基于这种思路,我们的云平台分为三层结构。底层是基本的物理环境,即云计算中心;上面是云计算平台,包括物理设备、虚拟化资源池和资源调度平台三个部分;再往上,是应用云服务。我们希望利用这种架构,构建更加动态的云基础架构平台:首先采用一些比较高性能的设备,做一个比较好的虚拟化平台;其次,实现更好的管理运维架构;最后,要根据业务需求,实现云平台的扩容和容灾。


  网络层面上,我们分别和移动及AT&T合作,在国内外建立了两张MPLSVPN网络,并在上海对他们进行了互联。生产中心的计算资源,一般根据管理和部署需求的不同,分为生产区、测试区、开发区和VMView区来交付使用,存储资源统一通过资源调度进行分配。所有的资源扩容,都基于对整个资源池的管理要求来开展,而不是某个应用。每个资源池都有一定的可调度性,所以一旦临时有一、两个应用需要对资源需求进行调整,可以在不增加任何硬件的情况下得到满足。


  另外,我们做了桌面的虚拟化,把前端应用映射到我的服务中心,利用虚拟桌面服务器运行原来应该在前端PC上运行的应用。无论是Win7、XP、还是win8,无论是office,或SAP的客户端,都可以部署到后端的虚拟桌面服务器上,前端系统变成了一个瘦终端,保证了系统的可靠性和安全性。


  目前这种虚拟桌面在我们的开发团队中已经应用。另外,它还可以用于一些需要标准化管理的工作,包括城市燃气分销等业务。通过虚拟桌面,可以限制营业厅的电脑只能做售气、刷卡的业务,不能上网、用QQ、打游戏,也不会中病毒,安全更有保障。第三个应用场合,是在各种平板电脑上,包括安卓、IOS系统等,都可以通过虚拟桌面访问各种应用。移动设备和电脑的差别比较大,用它做工作流,大家不习惯,但如果能利用虚拟桌面,把整个电脑桌面推给用户,就会更方便,也弥补了平板电脑计算性能不如PC的问题。只要有比较好的网络连接,速度和效率还是有保障的。


  云平台搭建之后,就要考虑它的安全性。以前的方式是围绕应用或服务器来考虑安全性,并在网络上加以限制,到了云平台,就必须考虑如何保证整个云架构的安全。目前我们的做法是采用单点登录+统一认证的系统,保证用户通过认证之后,安全访问所有应用。未来我们还考虑在内部搭建认证服务器,实现基于证书的强认证。


  与传统基础架构相比,云架构带来了一些新的变化。以前有新项目上线,要提前申请采购和安装设备,最快也得二十天到一个月。现在基于云计算和资源池,基本上可以实时供应,即使是大型的应用,也可以在很短的时间之内,交付所需要的资源。去年我们有一个HANA的POC验证需求,临时需要两个非常大的机器,按照传统的方法,采购周期长,成本也很高。我们通过资源调配和应用迁移,用了一周的时间就搞定了。


  另外云平台在运维这方面,也有很大的优势。在能耗上,以前由于估计不够准确,多数情况下我们都会多要点,总的能耗就比较高,做了云平台之后,资源和能耗的需求都下降了很多。人员配备上,以前一个管理员最多能管20台到30台服务器,现在可以达到100台。由于云平台使用了高性能的设备,在数据中心的空间占用上,也能节省不少开销。我们深圳的灾备中心,共有六个核心应用,只用了两台P7、4台X3850和一台8000的存储,占的空间也就20多平米。


  在云平台投入使用前,我们的售气业务每月底有一个高峰期,响应速度基本在一秒以上,最长的时候达到五秒。迁移到云平台后,响应速度基本上就比较平缓了,月底时候响应速度也能控制在一秒以下。以前的营业厅处理一个售气业务,需要三分钟到四分钟,现在缩减到了40秒以内。给成员企业最直观的感受就是原来高峰期总得有二、三十个人排队,现在顶多有四、五个人。


  系统的高可用性和扩容能力也有改善。灾备用系统的切换,原来要用30分钟,现在最长不超过10分钟。以前我们两个比较大的系统,在晚上进行备份,需要12小时的备份时间,和业务时段之间基本没有缓冲。做了云迁移之后,备份时间缩短到了3个小时,停机窗口和运维都有了更好的保障。


  今年3月底,有传言说天然气要涨价,我们的业务量骤增到平常的十多倍,最高的时候甚至是平时的二十余倍。在这种情况下,我们根据监控的结果,快速评估和决策,并利用云平台快速调度和部署的优点,两个小时就实现了4个集群的扩容,有效支撑了业务的开展。在这件事情上,国内的几家燃气公司,我们是最好的,得到了老百姓的肯定和政府的表扬。


  新奥当前云平台还局限在基础架构层面,未来我们希望能够增加OS、中间件和数据库的云服务,实现更自动、灵活和智能的资源管理。目前我们已经开始一些尝试,让用户通过邮件来自动申请部分实验资源。在整个云平台架构之上,我们能够把下面几层做成标准化的服务,承载不同的应用。


  另外,安全问题是我们关注的一个重点。我们希望在云的底层实现数据的安全防护,因为在云环境里,应用系统都是一个个镜像,可以随时被清除或创建,只有数据才是真正需要被保护的。以前应用和设备绑定在一起,应用不安全,设备和数据也不安全,云化以后,应用和数据就分开了。对云的防护,要分清到底该防护哪些东西,在哪个层面来做。我们的想法是通过平台层级的安全控制,在每个平台的底层做好管理,实现最终的安全防护。