探索中国CIO人才现状 | 第四季调研报告
通过与Hadoop结合助力大数据发展
2013-06-06  作者:企业网 

  首先,我想向大家讲一下英特尔是如何理解大数据的。我们在CPU方面,在芯片方面非常的有经验,我们主要是为像个人电脑、平板电脑和其他的智能手机和数据中心提供我们的处理器以及芯片。


  我们也看到了在我们的行业出现一个非常值得人们关注的趋势,我们可以看一看这些技术的发展,1960年代产生了自动化的需要,由自动化引领,后来我们发现我们的问题已经不是关注和拉近人们的距离,而是关注用户体验,比如这种用户体验是不是高度定制化或者是个性化的,通过这种个性化的提升我们产生了很多大数据,我们相信接下来一轮信息产业的变革一定是会由大数据所带动的,所以大数据对于英特尔公司的策略以及未来的发展非常重要,这就是为什么我们和很多合作伙伴一起共建大数据的生态环境和平台。


  再讲一下我们是如何理解大数据的。大家提到大数据会想到TB级的数据,但是其实我们这个行业考虑大数据的时候主要是考虑那些处理大数据的工作,比如说关系型数据库,但是发现像关系型数据库和传统的处理方法就不能适应大数据的需要。还有,大数据不仅仅关乎于数据,也不关乎于数据处理的工具,大数据所含有的商业价值也比一般的价值多很多,很多国家和地区认识到了数据能够变现,数据能够产生新的业务模式。


  我们可以从另外角度探讨这一问题,比如说英特尔Hadoop这方面非常先进,中国市场的地位也非常的稳固,以前我们是一个芯片公司,现在我们已经开始关注Hadoop以及一些软件,因为我们发现通过Hadoop结合可以带来更好的商业机会。几年以前,我们和中国合作伙伴的合作模式跟现在已经不一样了,这主要是因为创新引起的。之前我们跟中国的合作发现每年中国移动产生很多大数据量,而且数据量已经提升了30倍。比方说对于一些运营商来讲,如果你提交的这个查询需要30秒的时间进行反馈的话你是接受不了的,1秒的反馈时间你能够接受。


  现在这些大数据能使得公司更接近它们的用户同时为用户提供更好的服务。同时看到大数据在其他领域有很多影响,比如在智慧城市领域,中国正在快速发展当中,我们看到智慧城市利用了一些图像的控制和监控的视频来提升交流顺畅度,比如在重庆等等我们都用了这些监控的录像数据提升公共安全或者交通的便利性。在北京的其他地方,跟以前是有很大的不同的,我们看到现在的北京是如果有智慧城市的项目在这里的话,相信大家上二环和三环就不会像现在那么沮丧了。


  我个人认为大数据很有作为的一个地方就是医疗健康领域,我们和一家美国公司进行合作,它现在也在中国运行,我们通过这样的合作使得我们有能力进行。我的一个同事在很多年前得了肾癌,当时他用的治疗药品是传统治疗肾癌的药品,但是当时他能够获得一些利用最高级的利用计算机的机会,所以我的同事用这个机会破解了他基因组的秘密以及他自己肾癌基因组的秘密,他觉得似乎这个看起来结果更像是胰腺癌而不是肾癌,后来就根据这个计算结果将他的药物调整到了胰腺癌的药物,过了几个月他就得到了很好的治疗,而且大大延长了他的寿命。


  但是对于大部分人来说都没有这种利用超级计算机的机会,成本也太高,因此,如果我们能够将它做成大众用得起的这样一些服务的话对于我们是非常令人激动的事情,比方利用基因组的破解,在治疗各种疾病过程当中获得非常好的结果,这是我对于大数据最高的期待。


  Hadoop从谷歌到雅虎成为了开源性的大数据运用的工具,它不可能解决所有大数据的问题,它本身也不是一个所谓的解决方案。但是我们相信Hadoop这个框架它是一个非常基础的框架,能够使得这个数据各种结果的应用放在这个Hadoop基础之上。


  在传统的产业当中,如果能够更简化Hadoop应用的话,那么能够给很多人带来很大的帮助,我们相信Hadoop这方面有非常大的潜力,使它更有容易部署、成本更低,并且也能够用到更广泛的应用领域当中,因此我们在各个领域当中对Hadoop进行一些改进。


  比方说这个实时的分析更灵活,我们看到当今的这个Hadoop它是一种P处理的工具,它只能提供一些有限的价值,但是我们现在摆在这个平台它能够有更广泛的应用和广大的能力。我们看看大数据现在有什么问题,比方选安全、实时响应、环境负载度、实现业务价值的途径等等,很多公司开始都是考虑我要处理什么样的数据,以及我们能够从这些数据分析当中得到什么样的价值,这是大多数公司考虑的问题,但是大部分的公司还是在考虑到底我该怎么办。原因是复杂度,有很多新的工具出现,需要人们学习相应的机会去掌握它们。


  我们从数据当中得到的一些分析,如果是能够实时一点的话才会起到真正的作用。解决这个问题如果采用高度集中或者垂直的方式来做的话对于很多用户可能是可以的,但是英特尔认为开放性能够使得我们在长期内获得更快更大的增长,而对于高度集中或者私有的封闭的方案可能是能够很快的解决问题,但是在长期来说对于大数据更长期的价值实现是不利的。


  这个行业如果我们有一个开放性的可操作的这样一个基础或者框架,当然了,是以Hadoop为基础,但是要超越这个基础,才能实现在开放环境下的各种服务,为整个行业带来利益。随着我们加入到Hadoop生态系统当中,我们是完全投入到这个开放源当中,那我们在不断的为开源社区贡献代码,我们也利用了新的技术,Hadoop从某种意义上来说是一种低端低层的软件解决方案,它是针对非常复杂的这种解决。那么我们可以在硬件层增强这一平台的性能安全性,我们还可以和开源社区共同驱动新的项目,比方说我们在商业项目上的这些客户就能够有信息说我们能够真正坚定的执行开源。


  我们很多机会扩大这个Hadoop使它进行商业扩展,我们看到有很多方法利用现有的技术使得Hadoop是更加有能力更规范的应用模式和应用系统,比方说通过处理器不单能够提高我们的计算、连网、储存能力、磁盘性能,各方面都能够达到最好,我们使得Hadoop集群用户更容易部署,尤其是在存储控制方面,这样保证用户的数据只有用户他们自己能介入,我们希望Hadoop能够得到一个增强。