探索中国CIO人才现状 | 第四季调研报告
颠覆我们生活的大数据
2014-05-09  作者:CIO时代网 

  数据本身不产生价值,如何分析和利用大数据对业务产生帮助才是关键。首先例举一些大数据的典型应用,然后解释大数据的定义,最后总结大数据的价值。


  我们知道:


  1.第一次工业革命以煤炭为基础,蒸汽机和印刷术为标志;2.第二次工业革命以石油为基础,内燃机和电信技术为标志;3.第三次工业革命以核能为基础,互联网技术为标志;4.第四次工业革命以可再生能源为基础,_________为标志。


  空白处你会填上什么?欢迎大家讨论。但是目前可以预测的是,数据和内容作为互联网的核心,不论是传统行业还是新型行业,谁率先与互联网融合成功,能够从大数据的金矿中发现暗藏的规律,就能够抢占先机,成为技术改革的标志。


  一、大数据的应用


  大数据挖掘商业价值的方法主要分为四种:


  1.客户群体细分,然后为每个群体量定制特别的服务。


  2.模拟现实环境,发掘新的需求同时提高投资的回报率。


  3.加强部门联系,提高整条管理链条和产业链条的效率。


  4.降低服务成本,发现隐藏线索进行产品和服务的创新。


  Mckinsey列出了各个行业利用大数据价值的难易度以及发展潜力。


  大数据的类型大致可分为三类:


  1.传统企业数据(Traditionalenterprisedata):包括CRMsystems的消费者数据,传统的ERP数据,库存数据以及账目数据等。


  2.机器和传感器数据(Machine-generated/sensordata):包括呼叫记录(CallDetailRecords),智能仪表,工业设备传感器,设备日志(通常是Digitalexhaust),交易数据等。


  3.社交数据(Socialdata):包括用户行为记录,反馈数据等。如Twitter,Facebook这样的社交媒体平台。


  从理论上来看:所有产业都会从大数据的发展中受益。但由于数据缺乏以及从业人员本身的原因,第一、第二产业的发展速度相对于第三产业来说会迟缓一些。


  1985年,我国国家统计局明确地把我国产业划分为三大产业:


  1.农业(包括林业、牧业、渔业等)定为第一产业。


  2.工业(包括采掘业、制造业、自来水、电力、蒸汽、煤气)和建筑业定为第二产业。


  3.把第一、二产业以外的各行业定为第三产业。


  第三产业即除第一、第二产业以外的向全社会提供各种各样劳务的服务性行业,主要是服务业。其中第三产业可具体分为两大部门:一是流通部门;二是服务部门。再细分又可分为四个层次:


  1.第一层次,流通部门。包括交通运输行业、邮电通讯行业、物资供销和仓储行业。


  2.第二层次,为生产和生活服务的部门。包括金融业、商业饮食业、保险业、地质普查业、房地产业、公用事业、技术服务业和生活服务修理业务;


  3.第三层次,为提高科学文化水平和居民素质服务的部门。包括教育文化、广播电视事业、科学研究事业、卫生、体育和社会福利事业;


  4.第四层次,为社会公共需要服务的部门。包括国家机关、党政机关、社会团体、以及军队和警察公安司法机关等。


  我们可以看出,由于某些客观原因,相对于第一产业和第二产业来说,第三产业凭借自身的优势,大多汇聚了当前最海量的数据以及大批的科研中坚力量。接下来让我们看一些典型例子,当前新形势下与三大产业密切相关的大数据应用。


  (1)第一产业


  孟山都(MonsantoASustainableAgricultureCompany),农业


  孟山都是一家美国的跨国农业生物技术公司,其生产的旗舰产品抗农达,即年年春(Roundup)是全球知名的嘉磷塞除草剂,长期占据市场第一个位置。该公司目前也是基因改造(GE)种子的领先生产商,占据了多种农作物种子70%–100%的市场份额,而在美国本土,更占有整个市场的90%。已经统治了生物工程种子业务超过十年。


  孟山都首先发起“GreenDataRevolution”运动,建立农业数据联盟(OpenAgDataAlliance)来统一数据标准,让农民不用懂“高科技”也能享受大数据的成果。典型的应用如农场设备制造商JohnDeere与DuPontPioneer当前联合提供“决策服务(DecisionServices)”,农民只需在驾驶室里拿出平板电脑,收集种子监视器传来的数据,然后将其上传给服务器,最终服务器返回化肥的配方到农场拖拉机上。


  天气意外保险公司(TheClimateCorporation),农业


  TheClimateCorporation为农民提供TotalWeatherInsurance(TWI)——涵盖全年各季节的天气保险项目。利用公司特有的数据采集与分析平台,每天从250万个采集点获取天气数据,并结合大量的天气模拟、海量的植物根部构造和土质分析等信息对意外天气风险做出综合判断,然后向农民提供农作物保险。前不久从GoogleVentures、FoundersFund等多家公司获得超过5000万美元的风险投资。2013年被孟山都收购。


  土壤抽样分析服务商(Solum,Inc),农业


  Solum目标是实现高效、精准的土壤抽样分析,以帮助种植者在正确的时间、正确的地点进行精确施肥。农户既可以通过公司开发的NoWaitNitrate系统在田间进行分析即时获取数据;也可以把土壤样本寄给该公司的实验室进行分析。2012年获得AndreessenHorowitz领投的1700万美元投资后,已累计融资近2000万美元。


  (2)第二产业


  2013年9月,工业和信息化部发布了《关于印发信息化和工业化深度融合专项行动计划(2013-2018年)》的通知。明确提出推动物联网在工业领域的集成创新和应用:


  实施物联网发展专项,在重点行业组织开展试点示范,以传感器和传感器网络、RFID、工业大数据的应用为切入点,重点支持生产过程控制、生产环境检测、制造供应链跟踪、远程诊断管理等物联网应用,促进经济效益提升、安全生产和节能减排。


  大数据的业务多是数据驱动型,具有数据量大、种类多、实时性高的特点。工业企业对数据的记录以往看来主要分为两种方法:传统的纸笔和Excel电子表格记录。这些操作起来看似简单的数据管理方式为企业生产及质量监控埋下了巨大的隐患,也让数据挖掘无从谈起。


  随着信息化与工业化的融合发展,信息技术渗透到了工业企业产业链的各个环节。例如Sensor、RFID、Barcode、物联网等技术已经在企业中得到初步应用,工业大数据也开始逐渐得到积累。企业中生产线高速运转时机器所产生的数据量不亚于计算机数据,而且数据类型多是非结构化数据,对数据的实时性要求也更高。因此工业大数据所面临的问题和挑战很多,所以通用电气公司(GeneralElectric)的副总裁兼全球技术总监WilliamRuh认为相对于工业大数据来说,工业互联网(IndustrialInternet)才是当前急需的,因为大数据本身并没有让信息的提取更加智能,业务比数据本身更加重要。他举了一个核磁共振成像扫描的例子:


  又如在工业中,压力、温度等数据的特点是需要语境才能理解的。燃气轮机排气装置上的温度读数与一台机车的内部温度是完全不同的。燃气轮机改善热敷需要使用非常复杂的算法运行模型。在笔记本电脑上,一个典型的查询要获得答案一般需要三个星期。在基于大数据的分布式系统上发布同样的查询执行一种计算只需要不到一秒钟。


  第三方认证机构(T?VNORDGROUP),工业


  德国汉德技术监督服务有限公司的前身是德国锅炉检验协会(简称D?V)早在1869年,德国锅炉检验协会就承担了德国国内所有锅炉运行安全的检验工作,保证了锅炉生产的安全。渐渐的,德国锅炉检验协会取得了德国政府的授权,开展对其他产品的检验工作,从采矿,电力系统开始,到压力容器,机动车辆,医疗设备,环境保护,宇航工业,医疗产品等等,现在的德国汉德技术监督服务有限公司已经成为了许许多多产品的安全代号。主要体系认证包括企业质量管理体系,生产环境体系,生产碳排放方案等。D?V当前从建筑绿色标准体系方面提出了对于大数据能源管理的探索,以微软新总部,蒂森克虏伯电梯总部为例,在整个项目实施中引入大数据能源管理,在建筑的设计规划阶段、施工阶段、运营阶段等多个阶段通过数据化的能源管理系统,实现建筑的低碳、绿色、智能。


  工业自动化软件商(Wonderware),工业


  Wonderware作为系统软件涉及的专业企业,对于大数据的计算和运用是从比较“IT”的角度出发的。Wonderware的实时数据管理软件能够提供一个工厂所需要的从建立到报废的所有实时数据。目前已经退出移动版本,工程总监在手机上就能够随时随地监控设备的运行状况。目前全球超过三分之一的工厂应用Wonderware公司的软件解决方案。


  (3)第三产业


  这一个部分的内容比较多。这里只提出一些典型的应用例子,欢迎补充。


  健康与医疗:的健身腕带可以收集有关我们走路或者慢跑的数据,例如行走步数、卡路里消耗、睡眠时长等数据与健康记录来改善我们的健康状况;EarlyDetectionofPatientDeterioration等公司正在开发床垫监测传感器,自动监测和记录心脏速率、呼吸速率、运动和睡眠活动。该传感器收集的数据以无线方式被发送到智能手机和平板电脑进行进一步分析;美国公共卫生协会(APHA:AmericanPublicHealthAssociation)开发FluNearYou用来的症状,通过大数据分析生成报告显示用户所在地区的流感活动。


  视频:互联网电视能够追踪你正在看的内容,看了多长时间,甚至能够识别多少人坐在电视机前,来确定这个频道的流行度。Netflix美国国内规模最大的商业视频流供应商,收集的数据包括用户在看什么、喜欢在什么时段观看、在哪里观看以及使用哪些设备观看等。甚至记录用户在哪视频的哪个时间点后退、快进或者暂停,乃至看到哪里直接将视频关掉等信息。典型的应用是Netflix公司利用数据说服BBC重新翻拍了电视连结剧《纸牌屋》,而且成功的挖掘出演员KevinSpacey和导演DavidFincher的支持者与原剧集粉丝的关联性,确定新剧拍摄的最佳人选。


  交通:《车来了》通过分析公交车上GPS定位系统每天的位置和时间数据,结合时刻表预测出每一辆公交车的到站时间;WNYC开发的TransitTimeNYC通过开源行程平台(Github:OpenTripPlanner和MTA)获取的数据将纽约市划分成2930个六边形,模拟出从每一个六边形中点到边缘的时间(地铁和步行,时间是上午九点),最终建模出4290985条虚拟线路。用户只需点击地图或者输入地址就能知道地铁到达每个位置的时间;实时交通数据采集商INRIX-Traffic的口号是(永不迟到!^^),通过记录每位用户在行驶过程中的实时数据例如行驶车速,所在位置等信息并进行数据汇总分析,而后计算出最佳线路,让用户能够避开拥堵。


  电子商务:Decide是一家预测商品价格并为消费者提出购买时间建议的创业公司,通过抓取亚马逊、百思买、新蛋及全球各大网站上数以十亿计的数据进行分析,最终整合在一个页面中方便消费者对比查看,并且能够预测产品的价格趋势,帮助用户确定商品的最好购买时机。已经于2013年被eBay收购。


  政治:奥巴马在总统竞选中使用大数据分析来收集选民的数据,让他可以专注于对他最感兴趣的选民,谷歌执行董事长EricSchmidt当时向奥巴马的大数据分析团队投资数百万美元并聚拢核心成员成立了CivisAnalytics咨询公司,该公司将会将在奥巴马连任竞选中所获得的经验应用到商业和非营利行业中。(了解更多可以看看MITtechnology的文章TheDefinitiveStoryofHowPresidentObamaMinedVoterDatatoWinASecondTerm)


  金融:ZestFinanceBigDataUnderwriting是由是Google的前任CIO,DouglasMerrill创立金融数据分析服务提供商,使用机器学习算法和大数据为放款者提供承保模式,旨在为那些个人信用不良或者不满足传统银行贷款资格的个人提供服务。公司使用分析模型对每位信贷申请人的上万条原始信息数据进行分析,只需几秒时间便可以得出超过十万个行为指标。目前违约率比行业平均水平低60%左右。另外一个不得不提到的是风险管理先驱者FICOPredictiveAnalytics,BigDataAnalyticsandFICOCreditScores,通过大数据分析为银行和信用卡发卡机构、保险、医疗保健、政府和零售行业提供服务。FICO信用分计算的基本思想是:把借款人过去的信用历史资料与数据库中的全体借款人的信用习惯相比较,检查借款人的发展趋势跟经常违约、随意透支、甚至申请破产等各种陷入财务困境的借款人的发展趋势是否相似。FICO已经为三分之二的世界100强银行提供服务,提高了客户忠诚度和盈利率、减少欺诈损失、管理信贷风险、满足监管与竞争要求并快速获取市场份额。想了解更多的企业可以看看附录中《经济学人》的文章《Bigdata:Crunchingthenumbers》。


  电信:美国T-mobiles采用Informatica-TheDataIntegrationCompany平台开展大数据工作,通过集成数据综合分析客户流失的原因,根据分析结果优化网络布局为客户提供了更好的体验,在一个季度内将流失率减半;韩国SKtelecom新成立一家公司SKPlanet,通过大数据分析用户的使用行为,在用户做出决定之前推出符合用户兴趣的业务防止用户流失。美国AT&T公司将记录用户在Wifi网络中的地理位置、网络浏览历史记录以及使用的应用等数据销售给广告客户。比如当用户距离商家很近时,就有可能收到该商家提供的折扣很大的电子优惠券。英国BT-Broadband公司发布了新的安全数据分析服务AssureAnalytics—BTnewsreleases,帮助企业收集、管理和评估大数据集,将这些数据通过可视化的方式呈现给企业,帮助企业改进决策。


  一般来说盈利性质的商业公司和企业都不会轻易泄露自己的数据、建模方法和分析过程,所以还有很多大家不知道的神秘应用潜伏在黑暗里,如同《三体》中的”黑暗森林法则“。


  宇宙就是一座黑暗森林,每个文明都是带枪的猎人,像幽灵般潜行于林间,轻轻拨开挡路的树枝,竭力不让脚步发出一点儿声音,连呼吸都必须小心翼翼:他必须小心,因为林中到处都有与他一样潜行的猎人,如果他发现了别的生命,能做的只有一件事:开枪消灭之。在这片森林中,他人就是地狱,就是永恒的威胁,任何暴露自己存在的生命都将很快被消灭,这就是宇宙文明的图景,这就是对费米悖论的解释。


  二、大数据的定义


  大数据(BigData)是指“无法用现有的软件工具提取、存储、搜索、共享、分析和处理的海量的、复杂的数据集合。”业界通常用4个V(即Volume、Variety、Value、Velocity)来概括大数据的特征。


  1.数据体量巨大(Volume)。截至目前,人类生产的所有印刷材料的数据量是200PB,而历史上全人类说过的所有的话的数据量大约是5EB(1EB=210PB)。


  2.数据类型繁多(Variety)。相对于以往便于存储的以文本为主的结构化数据,非结构化数据越来越多,包括网络日志、音频、视频、图片、地理位置信息等,这些多类型的数据对数据的处理能力提出了更高要求。


  3.价值密度低(Value)。价值密度的高低与数据总量的大小成反比。如何通过强大的机器算法更迅速地完成数据的价值“提纯”成为目前大数据背景下亟待解决的难题。


  4.处理速度快(Velocity)。大数据区分于传统数据挖掘的最显着特征。根据IDC的“数字宇宙”的报告,预计到2020年,全球数据使用量将达到35.2ZB。


  看看专家们怎么说。


  舍恩伯格,大数据时代


  不是随机样本,而是全体数据;不是精确性,而是混杂性;不是因果关系,而是相关关系。


  埃里克·西格尔,大数据预测


  大数据时代下的核心,预测分析已在商业和社会中得到广泛应用。随着越来越多的数据被记录和整理,未来预测分析必定会成为所有领域的关键技术。


  城田真琴,大数据的冲击


  从数据的类别上看,“大数据”指的是无法使用传统流程或工具处理或分析的信息。它定义了那些超出正常处理范围和大小、迫使用户采用非传统处理方法的数据集。


  三、大数据的价值


  了解了大数据的典型应用,理解了大数据的定义。这时相信在每个人的心中,关于大数据的价值都有了自己的答案。


  2010年《Science》上刊登了一篇文章指出,虽然人们的出行的模式有很大不同,但我们大多数人同样是可以预测的。这意味着我们能够根据个体之前的行为轨迹预测他或者她未来行踪的可能性,即93%的人类行为可预测。


  而大数定理告诉我们,在试验不变的条件下,重复试验多次,随机事件的频率近似于它概率。“有规律的随机事件”在大量重复出现的条件下,往往呈现几乎必然的统计特性。


  举个例子,我们向上抛一枚硬币,硬币落下后哪一面朝上本来是偶然的,但当我们上抛硬币的次数足够多后,达到上万次甚至几十万几百万次以后,我们就会发现,硬币每一面向上的次数约占总次数的二分之一。偶然中包含着某种必然。


  随着计算机的处理能力的日益强大,你能获得的数据量越大,你能挖掘到的价值就越多。


  实验的不断反复、大数据的日渐积累让人类发现规律,预测未来不再是科幻电影里的读心术。


  如果银行能及时地了解风险,我们的经济将更加强大。


  如果政府能够降低欺诈开支,我们的税收将更加合理。


  如果医院能够更早发现疾病,我们的身体将更加健康。


  如果电信公司能够降低成本,我们的话费将更加便宜。


  如果交通动态天气能够掌握,我们的出行将更加方便。


  如果商场能够动态调整库存,我们的商品将更加实惠。


  最终,我们都将从大数据分析中获益。