回顾整个数据平台的发展,在每一个阶段,所有数据类应用都会或多或少的会有数据质量的困扰,数据标准更是难以落地。数据管理由于难度大,涉及方面多,逐步成为重要不紧急的事情。
在海量复杂数据的场景下,如果没有有效的管理,那么大数据只能成为数据的沼泽。企业在大数据的投资只能换来低质量的大量无效数据,从而极大的影响企业的大数据战略。在大数据的时代,大家都在重视数据存储和大数据相关技术的同时,都开始注重建设数据管理能力。
传统的数据管理对于企业来确实较为复杂,虽然方法论没有问题,但是对于企业来说往往望而生畏,比如组织架构庞大、管理流程复杂、人工录入工作多、管理方位狭窄等等。
- 组织架构庞大:传统数据治理需要多个部门参与,多个部门之间复杂的从属关系让数据治理组织架构变得异常庞大,这样的组织架构在后期维护和管理上非常不方便,最终影响了数据治理任务分配和执行的效率。
- 管理流程复杂:传统数据治理无论是在数据标准的建立、审批、修订上,还是在IT任务分配与数据质量报告的生成上,都需要经过一系列复杂的流程,这些流程的审批与中间的周转大大增加了数据治理落地的难度。
- 人工录入工作多:传统数据治理缺乏平台和工具的支撑,自动化能力缺失,导致大部分数据相关的录入工作都由人工来完成,涉及到的人员众多,人工成本过高,效率比较低而且容易出错,人员管理上也存在一定困难,不利于长期发展。
- 管理范围狭窄:虽然传统数据管理最终的结果往往不尽如人意,传统数据治理只能管理DW(数据仓库)中的数据而不是全企业的数据。
传统数据治理的这些问题,在企业内部实际落地推行困难,难以获得真正收益,需要组织给予强力的支持,从而大家只停留在听说好案例,而不能在自己的组织中推行。
在大数据战略中,需要采用更敏捷的数据管理方法,简化数据管理组织架构和流程,以自动化方式代替人工录入,拓宽数据管理的范畴。使数据管理更容易让大家接受,从而在大数据时代解决数据管理的技术欠债,真正释放大数据所带来的价值。
如何实现敏捷数据管理?
- 一方面,企业应该明确数据治理的价值导向,其价值应该体现在帮助企业管理数据,打破部门间的壁垒,使数据的管理成为日常工作的一部分;
- 另一方面,更为重要的是,企业在实现敏捷数据管理的过程中,应该以技术实践为核心,利用一系列技术手段。以最小的工作量,帮助业务部门明确数据脉络,落地数据标准,提高数据质量,最终管理好企业内的所有数据,实现企业级的数据管理。在技术实践上,如何利用技术能力,帮助企业更容易的实现数据的有效管理,是在大数据时代企业应该关注的重点。
企业在做数据管理时,可以考虑从以下十二个技术点着手:
1. 统一管理企业数据资产
敏捷数据管理需要能够在技术上管理企业内部所有资产,也就是所有的元数据。这是企业实现敏捷数据管理最基础、最重要的原则。
目前企业元数据管理的技术架构一般都是基于CWM标准,OMG模型规范体系分为M3,M2,M1,M0四层,CWM标准位于M2层,是一个偏上层的规范,这从一定程度上限制了技术架构的扩展性,这种元数据管理技术架构只能管理企业数据相关资产,并不能管理对象、接口、业务、服务等其他企业信息。
为了增强技术架构的扩展性,实现对企业内部所有数据资产的管理,企业元数据管理技术架构需要基于更底层的规范,也就是位于OMG模型规范体系M3层能够描述CWM标准的MOF规范,基于MOF规范的元数据管理架构能够帮助企业扩展出其所需要的所有元模型,进而实现企业所有资产的统一管理。
2.自动获取资产信息
在企业中很多数据资产的管理是通过手工录入的方式人工整理的,在大数据时代,面对如此复杂的数据,人工已经完全不可能梳理清楚。企业需要从技术上提供各种自动化能力,实现对资产信息的自动获取,包括自动数据信息采集、自动服务信息采集与自动业务信息采集等。这要求企业使用的数据管理工具支持一系列的采集器。比如各种大数据环境的采集器,各种ETL工具的采集器,脚本等等采集器。目前很多工具都采用导出XML,再次采集的方式,这种会缺少很多细节,而细节是数据资产的关键点,所以对于工具的采集较好采用直连的方式。
3.识别与管理业务语义
业务语义的管理是数据管理的关键点,也是业务人员能够理解数据管理重要性的主要途径。但企业数据管理很多业务的语义十分依赖业务人员的人工梳理,难度大效率低,很可能出现因为梳理人员没有及时梳理,而造成业务语义难以被及时发现和管理的问题,同时这种梳理会极大损害业务人员对数据管理的积极性,认为数据管理没有帮忙,而是增加了工作量。
需要更加自动化的方式来帮助业务人员更容易和准确的梳理,需要能够从非结构化的文档中,将大部分业务语义抽取出来,并统一管理,成为未来的发展趋势(比如对于保险企业来说,可以利用业务语义抽取技术,从相关文档中自动识别出短期保险的定义)
这种能力可以通过自然语言分析技术来实现,企业可以通过综合多个材料中对同一业务的描述,分析出与最广泛认可的业务定义,由业务人员确认之后,识别出业务语义,这样大大减少了业务人员的工作量,提升了业务人员梳理业务语义的积极性。
4.业务语义与技术关联
对于企业数据管理来说,技术能弄懂业务的前提是技术与业务之间要有对应,让企业能够通过技术手段,对业务进行理解和分析。
目前大部分企业还是靠人工梳理对应业务与技术,业务部门负担很重,若能够利用数据治理工具提供商的行业实践积累,形成业务与技术的自动关联库,自动完成业务与技术对应,将能大大减少业务人员的工作量,同时提升技术与业务关联的准确度,消除业务与技术之间的鸿沟。
5. 从需求开始控制数据质量
数据质量一直是企业的痛点,数据质量不高,分析和挖掘无从谈起,但是企业容易出现的问题是只对已经产生的数据做检查,然后再将错误数据剔除,这种方法治标不治本,不能从根本上解决问题。
要想真正解决数据质量问题,应该从需求开始,将数据质量的服务集成到需求分析人员、模型设计人员与开发人员的工作环境中,让大家在日常的工作环境中自动控制数据质量,在数据的全生命周期中控制数据质量。
6. 在集成点检查数据质量
在企业大数据治理过程中,对于大数据生产线中的每个集成点,都需要做数据质量的检查,严格控制输入数据的质量。比如在数据采集过程,集成过程,分析过程等等都需要做检查。
但在大数据环境中,每个集成点都会有海量数据量流过,把数据逐条检查这种传统方式是行不通的,应该采用抽样的方式,对一批数据做数据质量的检查,来确定这批数据是否满足一定的质量区间,再决定是否需要对这批数据做详细的检查。
7. 持续积累检核规则
目前企业内的数据主要分为外部数据和内部数据,大数据时代到来让各企业广泛采购第三方数据,第三方数据的质量逐渐成为决定企业数据质量的关键因素。
对于企业的内部数据,可以通过业务梳理直接获得质量检核规则。但是对于外部第三方数据,需要先对这些数据进行采样,并应用关联算法自动发现其中的质量检核规则,并将这些检核规则持续积累,形成外部数据的检核规则库。
8. 自动化质量评分
企业的数据管理需要对整个企业大数据的质量有评判机制,需要能够自动化的对企业数据评分,促进整改。通过控制防止问题数据进入大数据平台。特别对于第三方数据,第三方数据的质量需要建立一定的评估模型,对于第三方数据的质量做一定的控制,从而能够保护企业的投资,使企业购买的数据真正有价值和意义。
9. 管理核心数据定义
在企业数据治理中,数据标准是很重要的内容,但是建立有效的数据标准并落地,是有一定难度的,传统数据管理的模式需要建立一套规范数据模型,即使企业实际数据模型中有上万个字段,也需要将每个字段于规范数据模型进行比对,这种方式往往难以落地。
其实只需要在众多数据中挑选出核心数据,只管理这些核心数据定义,依照核心数据建立标准,就可以实现企业数据治理的目标,还能提升数据治理的效率。
10. 为数据标准添加技术属性
在企业数据治理中,任何一个数据标准,如何没有对应的技术手段,都将难以落地,所以企业建立数据标准时,需要加入信息项的英文名称,来和实际数据库表中的字段相对应。
在数据标准中加入信息项的英文名称能给企业数据治理带来两方面的好处:
- 在做模型设计的时候,标准可以直接与模型设计工具集成,设计模型时就可以直接引用标准。
- 对已有系统,标准能够通过英文名称直接和应用系统的相关字段对应,自动发现与不符合标准的字段,并通过元数据直接通知给相应的系统。
11. 随业务持续更新数据标准
对于企业数据治理来说,有很多数据标准建立以后,往往只是一套书,没有根据企业业务发展及时做出更新,时间长了就成为了摆设。
实际上,数据标准是需要随着企业的业务变化而不断进行修订的,比如在企业拓展新业务的时候,需要在增加相应的标准进去,对于没有价值的标准,也要及时废弃。
12. 数据管理服务化
对于企业数据治理来说,数据管理服务化是企业能否实现敏捷数据管理的重要原则,敏捷数据管理强调企业把所有的技术能力全面共享成为服务,并融入到企业的各个系统中。“帮助”各个系统控制数据质量,规范数据,而不是对企业各个部门的人员进行“管理”,这样就能使数据管理融入到各部门人员的工作环境中,让大家在日常的工作环境中自动控制数据质量。
以上这些原则我们都有实践。比如管理了所有的元数据,自动化的获取了资产信息等等,限于时间关系,就不一一赘述。
未来在大数据时代,数据除了要存储起来,更加重要的是要管理好,相信未来会有更多的企业重视数据的管理。这样企业的数据湖才能一直清澈下去,而不是成为数据沼泽。