《2018企业数字化能力调研报告》及企业自测工具发布
探讨企业数据架构战略和数据湖的可能性和必要性
2015-09-08  来源:techtarget

现今的企业数据架构战略,必须解决如何将现有的数据系统与日益增长的信息需求,性能和数据源相匹配。

现今的CIO们,在整合企业数据架构中日益增长的各方面需求时,面临着两大挑战。首先,是将现有的支持运行应用程序的数据系统, 与分析师和数据科学家越来越多的信息需求之间相匹配。其次,是管理持续不断的,创新的数据管理功能 (比如Hadoop或NoSQL)在企业内部的集成。CIO的职责就是完成这一数据集成,提高数据的可访问性,同时降低系统的整体复杂性。

然而,大多数企业的数据架构,随着时间的推移,通常在缺少预定义的数据架构战略的情况下,自我进化。相应地,这些企业在能够使用统一的方法访问企业数据资产方面,遇到不断增加的复杂性问题。随着数据管理创新的速度加快,新技术如Hadoop,NoSQL和图形数据库正在计划和引入,也增加了数据使用者对于数据领域复杂性的担忧。

数据湖领域

比较突出的一个例子就是数据湖概念的出现,根据TechTarget的定义,“数据湖是指一个大型的基于对象的存储库,以数据的原始格式保存数据,直到它需要被使用时。” 数据湖基本上是一个数据存储平台,使企业能够收集各种数据集,用数据的原始格式进行存储,并让不同的数据使用者可以访问这些数据集,使他们能够根据各自的业务目的使用这些数据。 数据湖的好处之一,就是为共享数据提供了单一存储库,从而降低数据复制,避免数据不一致和增加成本。

和传统的数据采集和数据获取方法相比,数据湖从根本上采取了不同的方法。传统方法旨在使数据符合预定义的数据模型, 从而创建一个统一的数据资产,让所有的数据使用者共享。将数据规范定义到单一格式,这种方法,称为schema-on-write,可以限制下游使用者分析数据的方式。在数据湖中存储数据的方式则被称为schema-on-read,意为没有预定义的数据存储方式的限制,而是由使用者根据各自的需求,定义访问数据的方式。

数据湖带来了一些挑战,尤其是对于那些习惯使用自己的数据集副本进行报告和分析的下游数据使用者。首先,必须有一种方便获取数据湖中数据的方式,其次,必须有一个方法配置被访问的数据,以一种用户习惯的模型呈现。

在数据架构战略中使用虚拟化工具

全新的企业数据架构战略所面临的这些挑战,都可以通过使用数据虚拟化工具得以解决。数据虚拟化和联邦工具在一组数据源和不同的数据使用者之间提供了一个抽象层。 面向数据的工具被称为数据联邦。 这种技术提供了访问各种数据源类型的方案,包括大多数关系数据库系统,前代存储系统(比如,flat files,VSAM文件和其他主机存储方式),以及各类新兴技术,如Hadoop和NoSQL。数据联邦工具使应用程序能够透明地查询分布在多个存储平台的数据,同时隐藏数据源位置,或数据格式的详细信息。而面向使用者的工具通常被称为数据虚拟化。这一技术允许数据使用者定义逻辑语义数据模型,然后映射到每个联邦数据源的模型。这一语义模型提供了抽象层,简化了数据使用者的可访问性。用户对语义模型的查询被转换为每个联邦数据源的一系列自定义查询集。 当这些查询的结果集返回到数据虚拟化工具时,这些中间结果会被收集,整理和配置成一个最终的结果集返回给用户。实际上,数据虚拟化工具通过面向使用者的数据实体化规则,简化了将来自多个源的数据相融合的技术。

在定义语义模型中使用数据虚拟化工具,解决了访问数据湖中数据的两大问题。对数据湖的数据进行联邦访问,不需要用户改写他们的应用程序,从而包含从数据湖读取数据的代码,同时降低了数据复制的需求。现有的应用程序可以连接语义模型,使数据源对于使用者的应用程序变得透明。同时,数据虚拟化会隐藏schema-on-read的复杂性,使每个用户都能够将特定的数据规范化和数据转换规则应用于数据,从而适用于每个应用程序。

数据虚拟化和数据联邦是支持企业数据架构战略(包括大数据)的桥接技术。这些工具降低了开发和运营的成本,通过(低成本)数据湖的使用,降低复制数据集的存储需求。它们还为大多数平台提供了一个无缝的可访问性,随着新技术的不断采用,延伸了传统平台的生命周期。 数据虚拟化工具,通过使用内部软件的缓存,查询最优化,流水线数据流,和压缩存储,从而简化了环境数据的可访问性,避免了显著的性能退化。这些工具还为引入从大量快速兴起的数据源中提取和分析信息的创新技术铺平了道路。