数据质量定义:
1.从用户层级定义数据质量:即满足特定用户预期需要的程度
2.从数据本身定义数据质量:即从数据质量的指示器和参数指标等方面来衡量(真实性、完备性、自治性等)
3.从数据约束关系定义数据质量:即从数据的原子性、数据的关联性及对数据的约束规则来度量数据质量
4.从数据过程定义数据质量:即从数据能被正确使用、存储、传输等方面定义质量
企业希望在创建数据质量定义时考虑高质量数据的以下特征:
完整性:数据如何与预先建立的数据质量标准叠加?
有效性:数据是否符合给定数据集的值?
唯一性:一组数据出现在一组中的频率是多少?
准确性:数据的准确性如何?
一致性:在不同的数据集中,相同的数据是否保持相同的值?
此外,为了确保每次都满足这些特性,数据保护专家在实施数据质量管理策略时建议采用以下指导性治理原则:
问责制:谁负责确保数据质量管理?
透明度:如何记录数据质量管理以及这些文档在哪里可用?
保护:采取了哪些措施来保护数据?
合规性:哪些合规机构确保满足治理原则?
通过学习本教程,你能掌握数据质量管理的概念和实际应用场景,夯实大数据技术的应用基础和理论。