探索中国CIO人才现状 | 第四季调研报告
IT如何帮助高盛对付投资欺诈?
2015-04-04  来源:techtarget

高盛合规审查首席技术官Peter Ferns表示,在运用新兴技术方面高盛当前倾向于通过自建方式。高盛当前有三分之一的员工隶属于技术和战略团队。“通过技术部门的努力,我们能够以自建方式引入新技术。”Ferns表示。

自建新技术平台的一个案例就是“大图谱(big graph)”,出自于Ferns所在的高盛大数据战略团队。高盛的图谱分析平台将用户数据映射成图的形式,即一系列互相连接的对象(或节点)。通过这种方式,客户、员工、企业以及交易之间的关系以一种新颖的形式组织在了一起。

必须说明的是,图谱分析本身并不是新生事物,但为什么众多企业为此着迷不已呢?其中一个重要原因就是更好、更快和更低成本的技术出现了,使得对海量数据进行图谱分析成为可能。“大数据的兴起,使得大规模图结构的存储和计算成为可能。”Elder Research Inc.(位于弗吉尼亚Charlottesville的一家咨询公司)的首席科学家Andrew Fast表示。

合规审查和欺诈发现都与社交有关  

Ferns在去年秋天举行的Strata+Hadoop World上表示,图谱分析在高盛的应用场景是合规审查和欺诈发现。“如果你了解金融市场的合规就会知道,监管部门要求我们能够监控每天各个银行的所有交易。”Ferns说:“因此,合规首先就是要将各类数据聚合起来。”

每天,高盛所收集的数据涵盖了数以亿计的市场订单和指令、上千万笔贸易信息、数十亿规模的市场脉动数据、数百万电子邮件和即时消息等电子通讯数据。此外,由于高盛还被要求将这些数据保留一段时间,数据的规模愈发膨胀。单单就电子通讯数据而言,就达到了PB级别的规模。

“以前,这些数据的汇集、维护和保存都是非常棘手的。但换个角度看,得感谢监管部门对我们的这个要求,正因如此我们拥有了这些高价值的数据,同时也探索出了存储和管理数据的宝贵经验。”Ferns表示:“现在,一旦适用的新技术就绪,我们就能够对这些数据展开大规模的分析。”

Fast同样看好图谱分析在合规、风险管理和行业监管方面的前景。“统计乃至绝大部分分析行为的一个前提假设就是,数据是独立的,互相之间没有任何联系。然而,图谱分析打破了这种预设的条件。”Fast分析到。

Fast还以自身的经验进行了说明。在攻读博士学位期间,Fast与全美证券交易商协会(即现在的美国金融业监管局)进行过合作。该团队当时就采用了图谱分析技术对股票经纪人进行合规、风险、欺诈等方面的监控。“得出这个结论的前提在于,正如我目前所从事的反欺诈研究一样,欺诈和合规也具备同样的社交本质。”Fast解释到:“要么是文化的分享,要么是触发一个时间序列,要么是个体之间的交互。”

而且,高风险或欺诈行为并不是显而易见的。“它们并不会给出显著的信息从而立刻引起警觉。通过对相邻节点或特定群体的分析,图谱分析可以辨识微弱而隐晦的信号 -- 仅针对个体分析是无法察觉的。”

长久以来,纳斯达克都对那些隐含高风险的经纪人进行着监控,但是一直无法挖掘出这些人之间的关联。在Fast于2007年发表的论文中,证明了这些经纪人通常行动一致(无论跨部门还是公司之间),某段时间内会没有联系,但过一段时间又重新汇聚。“静默的时间可能是一年、两年甚至三年,但之后必然又聚集在一起做见不得人的勾当。”Fast说。通过对关系模式的长时间分析,纳斯达克能够预防性地识别出那些有违规倾向的经纪人。

自建或是外部引入?  

然后,高盛自建图谱分析平台的做法并非业界常态。“这需要相关技能的丰富积累。”Gartner分析师Rita Sallam表示。

这类平台并非在所有方面都与传统IT有区别。以数据流经的技术栈为例,Ferns认为与其他的项目并无不同:“都是从底层可信的数据源开始,贯穿到最顶部的业务层面。”

对于图谱分析平台的特殊之处,Ferns也举例加以说明。在可信数据源和用户界面之间,高盛开发了一个原始数据存储层(Ferns将其称为data lake),以及一个数据登记接口,用来定义原始数据的应有形态。“这里汇集了各类技术,但其中很大一部分是Hadoop。”Ferns说。

高盛的平台是基于本体模型(ontology model)或数据类型及相互关系构建。“我们有悠久的以模型为驱动进行开发的传统。”Ferns表示:“这一次这是基于这个核心理念加以扩展而已。”本体模型依赖于WWW标准:用于规定Web数据格式的资源描述框架(RDF)、定义数据间关系的Web本体语言(OWL)、针对RDF数据的SPARQL查询语言。

Sallam表示,诸如RDF和SPARQL之类的标准才刚刚出现,精通于此的专业人员还比较稀少。“图数据库的问题是没有诸如SQL一样的标准查询语言。”她表示。对此,Sallam的建议是,除非图谱分析属于关键任务(就如高盛的情况一样),否则CIO最好是从外部引入技术,而不是自行构建。“CIO们应该着眼于那些整体性的平台或应用,确保能够支撑规模不断增长的数据和分析程序,最终实现真正有商业意义的应用场景。”

应用场景现实可见且非常丰富。Sallam表示,图谱分析能够用于社交网络分析、电信网络分析、地理位置智能、市场分析、供应链监测和基因研究等多个领域。诸如IBM的i2、Centrifuge Systems和Palantir Technologies(2014年11月时估值达150亿美金)等,提供了针对图或网络的可视化分析平台。Sallam认为上述系统可作为tableau(流行的可视化分析平台,但目前尚未提供图或网络分析功能)的替代品。

Sallam表示,即便是没有直接投资于图谱分析技术的CIO,也应该为其在相关产品中的应用做好准备。比如,智能机器和虚拟个人助手就采用了图谱分析技术,并且在各类企业中得到了越来越普遍的运用。