探索中国CIO人才现状 第二季 报告发布
数据湖复杂化数字治理和合规性
2016-08-15  来源:techtarget

随着企业不断利用数据湖的分析优势,企业数据湖已经成为常态,但是它们的普及,应该让公司重新考虑数字治理和合规性。

企业内的大数据分析的增加,让“数据湖”不断增长,这是所有可以用于分析的信息资产的默认存储库,对于期望从数据中获得额外价值的公司而言,非常有益。但很多公司允许猖獗的积累,并不断将数据源倾倒入这些数据湖中,无意中带来了合规性风险。

数据目录工具可以帮助减轻这些风险,但在我们讨论这些工具之前,让我们来谈谈数据湖带来合规性问题的用例,以及为什么缺乏数数据湖治理战略,是如此危险。

在华尔街改革和消费者保护法第153 d(f)部分中描述了一个用例,它允许美国金融研究办公室(OFR)的主任向一家金融机构发出传票,要求提供所需要的数据, 来监督美国金融稳定性的潜在风险。这一传票的权力,并不局限于特定时间内的,一个特定类型的结构化数据库。相反,可以在任何时间要求任何数据。实际上,这意味着金融机构必须清楚他们管理的所有数据,以及数据所包含的信息,以及这些信息和其他数据集的关联。

另一个用例是大量的数据保护法规,对于信息暴露的处罚。The HIPAA Privacy Rule保护大多数“个人识别健康信息”——包括姓名,电话号码,地址,社保号码,也被称为病人的受保护健康信息(PHI)。The HIPAA Privacy Rule指出,“一个实体或商业团体必须(…)为电子信息系统实施技术政策和流程,维护电子受保护健康信息,只允许那些获得授权的人或软件进行访问。”

这就要求监测和减少任何潜在的PHI暴露风险,无论是源于个体黑客或软件应用。因此,企业数据湖中累积的数据,或其他类型的大容量存储库,公司不仅要确定哪些数据包含PHI数据,他们也必须清楚不同的数据集的组合,可能在不经意间暴露受保护的健康数据。

大数据分析与合规性

上述两个用例,凸显了数字化业务中的新兴挑战。数据积累对于预测和规范分析,有非常明显的好处。这激发了许多企业摄取外部来源的数据集,以扩大从内部事务和运行应用中,提取的自己的数据集。许多企业同时关注数据回收,其中的非结构化数据,比如过往的电子邮件,文档和幻灯片,通过访问它们的存档,然后加载到同一个业务数据湖中。

这种无节制的,大规模数据存储库的不受控制的增长,带来了合规性风险。随着越来越多的数据集被添加到数据湖中,很难快速的,准确的响应OFR的数据需求,或区分哪些PHI处于暴露的风险。

数据合规性的适当数字治理,对于现代企业,是一个复杂的过程:一个公司必须识别和仔细记录企业现有的数据资产,以及这些资产中信息如何反映已知的信息监管。但在大多数情况下,几乎没有人确切地知道哪些数据存在,这些数据中的数据分类,如何访问数据,以及谁拥有访问数据的权限,以及企业数据湖内的数据累积,可能涉及到的法规。当合规性审查数据到来时,缺乏企业数字治理环境的知识,会带来明显的障碍。许多人忙着寻找数据集的关联性,以及如何为适当的合规性响应,累积所需的信息。

自动数据目录的崛起

应对这些挑战的方法之一,就是使用自动化工具,调查和描述企业的每个数据,分析包含的信息类型。这使得公司能够创建并管理一个共享语义目录。这个数据目录提升了对不同数据集中包含内容的认识,列出的细节包括:

业务内容,现实世界数据类型的高度概括,包含在数据集内的信息,比如账号、姓名、位置和其他抽象实体概念。

存储在数据集中的属性名称。

创建、获取、读取或更新数据集的任何业务部门/流程的细节。数据集的存储位置,和访问信息的方式。读取数据所需的访问权限,以及获得访问数据权限的个人和应用程序。

从合规性角度来看,一个体现语义数据意识的数据目录,有助于确保实施适当的安全措施,进行数据保护和隐私合规性。此外,拥有包含信息细节的数据目录,可以简化对于消除合规性风险的外部数据调用需求的响应。