2018年第六届中国医药健康产业信息化高峰论坛
荣刚:中航信大数据思考与实践
2012-02-23  作者:中国民航信息集团副总经理荣刚 

  【CIO发展中心独家】我来自中国民航信息集团公司(以下简称中国航信)。中国航信的前身创建于80年代,30年来,一直为中国民航业提供信息化服务。中国航信正式组建于2002年10月,属国资委管理的中央企业,现有员工近4000人,总部在北京。2000年10月,中国民航计算机信息中心联合当时所有国内航空公司发起成立中国民航信息网络股份有限公司,于2001年2月在香港联交所主板挂牌上市交易。2008年7月,中国民航信息集团公司以中国民航信息网络股份有限公司为主体,完成主营业务和资产重组并在香港成功整体上市。

 


  目前,中国航信是航空旅游行业领先的信息技术及商务服务提供商,主要业务是航空客运业务处理、航空旅游电子分销、机场旅客处理、航空货运数据处理、航空财务结算清算、IT外包服务、互联网旅游分销平台。包括淘宝、携程、艺龙在内,它们销售客票的原始数据都由中国航信提供。航信的电子客票服务,可以让乘客方便地通过网络购买机票、网上值机,拿着第二代身份证就可以登机。


  我曾经看到过这样一个报道:美国某机场通过视频监控发现一个旅客把前面旅客的劳力士手表给偷了。随着服务细化以及航信客户--航空公司的要求越来越高、越来越细,中国航信也会逐步将图像、声音、视频加入到数据库当中,增加数据库的多样性。目前,航信只是把图片放到了数据库中,视频还没有放到其中。


  中国航信目前运行着超过2000台硬件设备,每秒钟事务处理能力是11000TNX/S,每天为100万旅客提供订票离港服务,每天交易量10亿元。中航信目前存储的数据大部分为结构化数据,拥有超过2PB的存储系统,每年结构化数据增长量为35%。中国航信拥有3个正在运行的数据中心,还有两个在建数据中心,分别是在顺义的30000平米数据中心以及浙江在嘉兴的15000平米数据中心。未来,会根据客户需求以及市场驱动等因素,来决定在结构化或非结构化数据的投资。


  目前,中航信最紧迫是要满足航空公司的实时票价计算需求。实时票价,就是航空公司能够在在某一时刻,根据历史数据、当下的需求,来自动决定机票售价,既可以让航空公司的利润最高,又能够让消费者能够接受。这个动态票价点需要在几秒内计算出来,需要结构化大数据、并行计算等技术来进行支撑。中航信现采用的传统teradata关系数据库,不能支持实时计算。


  航信成立之后的前20年,中国航信都是采用传统的主机系统,设备都是IBM的UNIX。目前,中国航信正在从传统的主机模式向开放平台进行转移,目前,酒店业务、货运业务、电子客票、机场离岗等等都在逐步地向开放平台进行迁移。


  在开放平台上,中国航信主要应用是的Oracle或者MySQL,数据架构之间相互比较独立、烟囱式的,每个系统之间数据没有物理上的联系。而逻辑上的些微联系也是根据业务需求,进行的数据交换。这些数据在物理上是统一存储,我们在3年前实现了在开放平台上的虚拟化存储技术,把所有的磁盘、所有的应用系统、主机都集成到我们的虚拟化云平台上,可以根据需要在几分钟内就部署一套系统,这在两年前就完全实现了。


  中国航信在2002年投资一亿部署Teradata的数据仓库。这是一个关系型数据库,它能存储大量数据,但缺点是反应速度慢,没法实时地为航空公司提供服务,不能在规定时间内计算出票价,这个需求对于航空公司、客票代理、购票人都是非常有用的。过长的等待时间会让该功能失去功用了,因此Teradata系统不能用于实时的计算,都是按天为单位来运算的。在2000年时,觉得Teradata的存储容量很大,可以存储1~2年的数据,但我们现在存储半年数据就满了,且管理成本、运维成本、扩容成本都是千万级的,也非常昂贵。


  根据预测,2020年的中国航空旅客运输量将达到7.7亿人次左右,年复合增长率为12.27%,并将成为全球第一的航空旅行大国。航空客运销售代理市场的规模将达到360亿元左右,成长空间巨大。可以预见,支撑这一巨大规模的IT系统也将是及其复杂的。


  此外,中航信今天还面临数据多样性的挑战。数据多样性,这更多是由客户驱动,如航空公司、客票代理、旅客对价格的理解,对服务需求的理解,对服务要求的提高,会促使中航信决定是不是、何时应用大数据,是结构化的还是非机构化的。比如中航信现有数据库支持图片,那就可以支持在乘客离岗时候照一张照片,在登机口利用照片核对是否同一人,符合之后才可以登机。但这里面的数据保密问题,对航空公司、信息服务提供商、乘客都是一个很大挑战。


  在2011年,中航信就开始研究大数据,是以事件交易服务为中心,主要面向旅客、面向航空公司来做大数据的服务。并在2011年底对国内航空公司做了调研。航空公司要求航信能够提供实时机票定价服务,根据市场需求,根据航线情况,能够给出旅客能够接受的最高价格,比如京沪航线,什么时候全价、什么时候能够打八折、八五折、七折,或者更低的折扣,这就要求航信提供很快的服务,能够根据当时的市场需求、以及前几年的历史数据,以及飞机时刻,来计算出能够航空公司所能卖出的最高价格,同时也能提高舱位的利用率。同时,也要监测竞争对手是不是有低价,如果竞争对手给出低价,航空公司也要立即跟进。这都需要实时数据来支撑。


  目前,中国航信在EMC的Greenplum上进行了大数据部署,这是基于事务性的、云计算部署,它解决了结构化数据并行计算问题,能够快速计算、迅速反应,但在图像存储上还有待完善。未来,航信最终会做hadoop,会采用全开源的NoSQL+X86的硬件平台,利用mapreduce、bigtable、GFS等类似的技术。


  特别是对于证券业、民航业、银行业等结构化数据较多的企业来说,Greenplum是适用的,因为他的结构化数据+并行处理能力强大。而对于拥有大量图像、声音、视频的非机构化数据,hadoop更加适用。


  对企业来说,任何技术都有好处和缺陷,关键要看企业客户需求是什么,客户要拿来做什么。就好比:不可能开着飞机大炮去打猎,得拿着猎枪。因此,服务提供商选择什么样的技术是基于客户的需求,要选对工具和技术去支撑应用,这是最关键的一点,看不到这点,会走冤枉路,花冤枉钱。


  中航信目前在做一个shopping,把中航信的酒店、机票还有价格放到平台上面,底层用的是mysql,上层是一些Nosql的数据库,这样能够快速响应。因为统计发现,大概每900-1000个的访问者中只有一人进行了购买,大部分人是浏览。为了应对这种情况,中航信采用了低成本的mysql,上面放一个高速缓存的nosql数据库,上面再架设一个网站的方式来为客户提供服务。


  民航主要用的是微软数据库架构,正逐步走向mapreduce、NoSQL,逐步走向开源系统、开放架构。由于中国航信研发人员比较多,能够较好地对开源内容进行编制和再创新,但最终还是航空公司和旅客的需求应用来驱动中国航信的架构。


  比如未来旅客订票需要图像,又如我们提供的预定酒店服务,可以在网上展示酒店客房的实际情况,甚至可以模仿消费者在房间里面走,而出现的视觉变化,房间的布局、颜色。以及窗外的景色,这就需要大数据的支持,必须是非结构化大数据来支持,传统的结构化数据是无法支持的。客户愿意花钱购买这个服务,或者竞争让这个服务以更低的成本得以实现。比如订酒店,你可以看到周围环境的布局以及酒店房间里面的情况,这样消费者可以更快地决定是否购买。如果其他商家做不到,那就有独特的竞争优势。对商家来说,是否能够负担这个成本,所有东西都取决于客户的需求以及成本的匹配。


  在数据中心“大数据平台”发展路线上,中国航信规划了四个方面。第一是基础的IDC建设,目前建设了两个全新的数据中心;第二个是云存储、云主机、云计算;第三个是开放的云应用,第四是把这些技术应用到web上,如网上值机、根据座位图来选择座位,未来航信可以提供立体飞机仓位示意图,让乘客可以更直观地判断位置的舒适程度等,只要航空公司需要,就可以很快开发出这些服务。


  除了为民航提供服务之外,中国航信还对其他企事业单位开放,提供包括信息服务,外包服务、灾备、虚拟化服务、咨询、运维外包在内的多种服务。比如民政部的全国低保信息系统、机房租用及运维服务项目;银河证券的数据机房租用项目;北方工业公司的虚拟化咨询实施项目;上海虹桥机场的信息系统异地灾备项目;中体彩的实时交易系统,支持全国有几十万个投注点的大容量并发交易。后来铁路的网上售票也来参观过航信系统。


  谢谢大家!

(来源:CIO发展中心)