本文是静怡同学翻译自 DATAVERSITY 的两篇短文,辨析一下数据建模与数据质量的概念,供大家参考。
什么是数据建模?
Cynthia 导读:
数据模型对于数据服务来说,是抽象了底层资源的高等级资产,既包含了对底层原始数据处理的智慧,也包含了对于 domain 数据问题抽象的 insight;以数据模型为核心的商业模式,在保证了可复用性的同时,也保障了行业专用性,有效的保障了数据资产的价值。
正文:
数据建模是指文档化软件和业务系统设计的实践。这些不同系统和流程的“建模”通常涉及使用图表、符号和文本来表示数据流经企业内的软件应用程序或数据架构的方式。数据建模还包括企业内业务流程建模实践,如处理更大的概念业务流程和整个组织的决策流程。
有许多相关的术语,包括概念建模、企业建模、逻辑模型、物理模型、实体关系模型、对象模型、多维模型、知识图、统计模型、规范数据模型、应用程序数据模型、业务需求模型、企业数据模型、集成模型、业务信息模型、本体、分类法、非关系模型、语义建模、ORM、UML 等等。
数据模型用于记录、定义、组织和显示给定数据库、体系结构、应用程序或平台内的数据结构如何在给定系统内以及在其他系统之间进行连接、存储、访问和处理。
根据 DAMA 国际数据管理知识库(DMBOK),数据建模是:
- 分析和设计的方法,用于:定义和分析数据需求和定义支持这些需求的逻辑和物理结构
- 数据模型是反映数据要求和设计的一组数据规范和相关图表
大多数数据建模教程讨论数据模型的三种主要类型:逻辑、物理和概念。数据管理通讯(TDAN.com)将其定义为:
- 物理数据模型表示数据库的实际结构 – 表和列,或计算机进程之间发送的消息。这里的实体类型通常表示表,关系类型行表示表之间的外键
- 逻辑数据模型是完全归一化的完全属性的数据模型。完全属性意味着实体类型具有所服务的应用程序所需的所有数据的所有属性和关系类型。它可能包括:对可以保存的数据的限制以及与逻辑数据模型服务的应用程序进程相关的规则和派生数
- 概念数据模型是业务中事物的模型以及它们之间的关系,而不是关于这些事物的数据模型。因此,在概念数据模型中,当你看到一个名为 car 的实体类型时,您应该考虑引擎的金属片,而不是数据库中的记录。因此,概念数据模型通常具有很少的属性(如果有的话)。
什么是数据质量?
正如国际数据管理协会的《数据管理知识手册》中规定的,数据质量(DQ)是“既指与数据有关的特征,也指用于衡量或改进数据质量的过程。”
数据被认为是高质量的,以适合数据消费者想要应用它的目的。它满足他们或明确或潜在的业务需求。由于对数据质量的期望并不总是已知或者可表述,所以需要进行持续的讨论。数据质量取决于环境和数据消费者的需求。
数据质量通常具有以下维度:
- 准确性
- 完整性
- 一致性
- 完备性
- 合理性
- 及时性
- 唯一性/重复数据删除
- 合法性
- 可访问性
数据质量的其他定义包括:
- “适合目的,满足作者、用户和管理员的要求。“(改编自 Martin Eppler)(Peter Aiken)
- “与信息质量同义。”(Peter Aiken)
- “依赖数据的准确性,一致性和完整性,以便在整个企业中发挥作用。”(Michelle Knight)
以下用途的工具和流程:(Gartner)
- 解析和标准化
- 广义的“清洗”
- 匹配
- 剖析
- 监控
- 丰富
Strong-Wang 框架:( 王强,MIT 和 DAMA DMBOK)
- 固有的数据质量准确性客观性可信度声誉
- 环境数据质量增值关联完整性适量的数据
- 具有代表性的数据质量解释性易于理解代表性,一致性简洁的表示
- 可访问性数据质量可访问访问安全
数据质量的一些用途:
- 增加组织数据的价值和使用它的机会
- 降低与低质量数据相关的风险和成本
- 提高组织效率和生产力
- 保护和提高组织的声誉
- 数据分析
- 数据标准化
- 数据监控
- 数据清理