为什么大数据技术很重要?
2011-12-05  作者:CIO发展中心/沈建苗编译 

  【CIO发展中心编译】我们都听说过这样的预测:到2020年,全球以电子形式存储的数据量将达到35万亿兆字节,比2009年增加44倍。据IDC公司声称,在2010年年底,全球数据量已经达到了12亿兆字节。如果将这些数据全刻录到DVD上,将这些DVD叠起来足以从地球到月球来回一趟——单程约24万英里。


  对于悲观主义来说,这无异于数据存储的世界末日。对于机会主义者来说,这是一座信息金矿:随着技术不断进步,蕴含的财富会越来越容易挖掘出来。


  “大数据技术”应运而生,这一批新兴的数据挖掘技术使得存储、处理和分析海量数据变得比以往更便宜、更快速。大数据技术一度只用于超级计算环境,现在变得被普通企业所用,同时在改变许多行业的业务经营方式。


  美国《计算机世界》杂志对大数据的定义是:使用一些非传统的数据筛选工具(包括但不仅限于Hadoop),挖掘数量庞大的结构化数据和非结构化数据,从中获取有用的宝贵信息。


  大数据技术酷似“云计算”,备受媒体炒作,充满了不确定性。我们请分析师和大数据爱好者解释了大数据技术是什么、不是什么,以及大数据技术对于数据挖掘的未来意味着什么。


  前世今生


  面向大企业的大数据技术之所以会兴起来,一方面归功于成本更低的计算能力,还有系统能够执行多任务处理这一点。主内存的成本也在一路下跌,因而公司可以在“内存中”处理比以往更多的数据。此外,现在更容易把多个计算机连接起来,组成服务器集群。IDC公司的数据库管理分析师CarlOlofson表示,这三大因素共同造就了大数据技术。


  他说:“我们不但能够处理好那些事务,而且成本很低廉。过去的一些大型超级计算机需要执行繁重多任务处理工作的系统,这些系统连接起来组成紧密结合的集群,但是成本高达数十万美元,因为它们都是专用硬件。而现在,我们使用普通硬件就能获得类似这样的配置。”


  不是建有庞大数据仓库的每家企业都可以说自己在使用大数据技术。IDC表示,某项技术要算得上是大数据技术,首先必须成本低廉,其次是满足多样性(variety)、体量(volume)和速度(velocity)这三个标准中的两个,IBM称之为三个V。


  多样性意味着数据包括结构化数据和非结构化数据这两种。体量指收集和分析的的数据量非常庞大。而速度是指处理数据的速度很快。Olofson说,大数据“并非总是有数百兆兆字节。视具体使用情况而定,由于第三个维度(即速度或时间),几百兆字节也可能相当大。如果我能在1秒钟内分析处理300兆字节的数据,而过去需要1小时才能完成,这大大改变了我对分析结果的处理,所以这增添了价值。大数据技术就是以低廉的成本运用了这三个标准中的至少两个。”


  投身开源


  Olofson说:“许多人认为,Hadoop与大数据是同义词。这其实是个错误。”他解释,实施的一些Teradata、MySQL和“智能集群技术”并没有使用Hadoop,但同样可以认为是大数据技术。


  Hadoop是一种面向大数据的应用环境,它之所以最受关注,是因为它基于MapReduce。MapReduce这种方法在超级计算领域很常见,但是经过了基本上由谷歌资助的一个项目的简化,因而变得很简练。


  为此,软件开发人员提出了各种各样的技巧和方法,以利用Hadoop和相似的高级技术——其中许多技术是在开源社区开发出来的。


  开源技术通常没有商业支持,“所以那些技术要有一段时间来完善和改进,才能最终成形,这个过程可能需要好几年。大数据技术新的方面不会马上开花结果,”出现在一般市场上。与此同时,IDC预计至少有三家商业供应商会在在今年年底之前提供针对Hadoop的某种支持服务。


  升级版RDBMS


  对于升级版关系型数据库管理系统(RDBMS)是不是也应该被认为是大数据技术,业界观察人士意见不一。Olofson说:“我认为,它满足速度更快、规模更大、成本更低的标准。”他补充道,比如说,Teradata将其系统做得成本更低廉,而且这是可扩展的集群环境。


  但另一些人并不认同。加特纳公司的数据管理分析师MarcusCollins说:“你通常使用RDBMS、使用标准商业智能工具来处理的数据,其实并不是大数据。这种处理很早就有了。”


  今天到底谁在真正分析大数据?


  一年前,大数据技术的主要用户是Facebook和雅虎等大型互联网公司,它们想要分析点击流数据。而如今,“大数据技术已经从主要的互联网公司,普及到了凡是拥有大量数据的任何公司,”Collins说。银行、公用事业公司和情报界,它们都搭上了大数据技术这股潮流。


  Olofson说:“在其他垂直行业,许多公司认识到,来自信息的价值比之前想象的要大得多,大数据技术因而会迅速受到追捧。”


  总部设在纽约的TRA公司专门帮助公司企业估量电视广告的效果,为此它把某个家庭通过电视和数字录像机接收到的广告与其在零售店付款台的消费行为进行比对。该公司收集来自有线电视公司数字录像机和零售商店会员卡计划的数据,进行这种比对。TRA的大数据系统所处理的海量数据代表着170万户家庭每一秒钟的收看习惯——要是没有大数据技术,不可能完成这样的工作。TRA部署了Kognitia公司的WX2数据库,该数据库让它得以迅速地装入和分析数据,收集来自数字录像机的很具体的广告收看信息,并与详细的销售点数据整合起来,生成定制报告。


  TRA的首席执行官MarkLieberman说:“Kognitia有一个内存中处理数据的解决方案,所以我们目前整个数据库的整整一半数据可以放在内存中处理。这意味着我们的客户执行查询时,响应时间实际上是数秒,而不是数小时或数日。”


  阿伯丁集团的分析师GregBelkin表示,TRA及其他公司使用的工具满足了速度、体量和多样性这些要求,称得上是大数据技术。Belkin说:“这非常适用于零售业,因为你有好多来源的数据以往没有得到有效地挖掘,”比如社交媒体网站、数字录像机设备和零售店的会员卡数据。“这个数据如此庞大、如此复杂,无法使用传统的数据库方法来分析,于是零售商们纷纷转向这些大数据平台。”


  同样,大数据技术彻底改变了卡塔利娜营销公司(CatalinaMarketing)的业务。这家总部设在佛罗里达州圣彼得斯堡的公司运行着一个庞大的客户会员数据库,里面的数据多达2.5亿兆字节,包含了1.9亿多美国零售商店顾客历年来的购买历史数据。


  通过分析这些数据,卡塔利娜营销公司帮助主要的消费品制造商和大型连锁超市预测顾客可能会购买什么商品、谁会对新商品感兴趣。


  卡塔利娜营销公司执行副总裁兼CIOEricWilliams说:“我们想为数据引入技术,而不是为技术引入数据。现在已经有技术可以让SAS之类的公司把他们的分析技术搬入到数据库。这极大地改变了整个公司。”


  许多公司在“开发可以在基于英特尔芯片的普通硬件上运行的技术,这样就有可能使用二级和三级产品,比如SASAnalytics的评分解决方案可以在运行数据库的Netezza软件上直接使用,”Williams表示。“能够将这项技术拿来后在数据库上直接使用,这意味着卡塔利娜营销公司可以将我们的数据挖掘解决方案的处理时间从几周缩短到短短几小时。”


  AbhishekMehta以前是美国银行主管大数据和分析技术的执行董事,他在2010年10月的Hadoop世界大会上表示,大数据技术正从根本上改变美国银行的业务经营方式。“我看今天的Hadoop就像20年前的Linux。我们都看到了Linux在企业软件领域取得的成就。Linux具有很强的颠覆性。Hadoop也会上演同样一幕。这不是会不会成功的问题,而是何时成功的问题。”


  Olofson预测,将来,公用事业公司会使用大数据技术改善提供给客户的服务,并通过电网监控、问题检测以及对电网进行微小调整来降低运营成本,但是这可能需要对日益老化的基础设施进行重大升级。


  品牌营销公司在尝试使用Hadoop,用于社交媒体中的“情感分析”。现在出现了一些服务提供商,它们使用Hadoop,替客户在推特上筛选信息,从中找出在推特上发送消息的人对于某些产品有怎样的评价、有怎样的想法。


  谨慎行事


  大数据技术正在迅速发展。眼下使用该技术的公司拥有非常精通技术的IT人员,能够根据这项技术的发展和本公司的具体需求来进行调整和适应。


  Olofson建议:“如果贵企业没有具备这么做的条件,那就与服务提供商合作——也许是云服务提供商,或者等到这些技术发展到了一定的阶段,到时市面上会有许多得到支持的成熟的软件产品和服务。你的业务人员要懂得所使用的技术才行。”


  毫无疑问,数据挖掘已经永远发生了变化。但是分析师们表示,大数据技术不会完全取代今天的数据仓库和数据挖掘工具。


  加特纳公司的Collins说:“今天,数据挖掘其实侧重于构建相对复杂的模型,而数据量不是非常大。现在,大数据给你带来了数量庞大的数据,所以你很可能不再需要一样复杂的模型。这可能意味着进行数据挖掘的方式会出现转变。”


  他表示,随着市面上开始出现预包装的工具,一些技术风险在随之消失,但是大数据技术仍然实际上是一种编程接口——这对于商业智能来说倒退了一步。


  比如说,“Hadoop是一种技术性相当强的系统,而商业智能方面的强劲势头将它推入到企业,推入到界面对用户非常友好的桌面上。”


  他补充说:“我们一定要把工具交到业务部门中用户们的手里。这一幕还没有出现。”


  (来源:CIO发展中心)