数据质量管理是所有数据类项目重点关注的领域,从20多年前的数据仓库到如今的数据湖、数据中台,企业都试图将通过对改善数据质量来提升数据的价值。
然而遗憾的是,我们看到很多企业的数据项目都是建了拆、拆了建,数据仓库还没有搞明白,就开始搞数据中台了。
当然,我并不是排斥通过新的技术、新的理念。
相反,我是非常乐意看到企业用尝试用新的技术和理念去创新,以提升管理和业务上的效率。
但是,追求新技术、新概念的过程中不能盲目,更不能过度迷信平台和工具。
数据项目还是应该回归到其本质上来,那就是提高数据质量,提升数据价值。
数据质量管理需要的是工匠精神,需要不断地对您拥有的数据进行反复“打磨”,循环迭代,将数据治理“常态化”,而不是指望实施一个项目就能实现数据质量的百分百提升。
关于如何做好数据质量的管理,我们给出以下10条最佳实践,希望对您有所启发。
对其业务目标!
笔者经常说:企业的数据治理不是为治理数据而治理数据,背后都是为了支持业务和管理目标的实现。提升数据质量的主要目的是推动业务发展:
第一,将企业的业务目标映射到数据质量管理计划中来。
第二,让业务人员深度参与甚至主导数据质量管理,作为该数据主要用户的业务部门可以更好地定义数据质量参数。
第三,将业务问题定义清楚,只有在业务问题定义清楚之后,才能分析出数据数量问题的根本原因,以及制定出更合理的解决方案。
评估数据质量
数据质量评估,是一种了解数据问题如何影响业务流程方式。从相关数据源提取数据,围绕已定义的业务需求,设计数据评估维度并利用相关工具完成评估,将数据质量评估结果以图表或报告形式准确的表达出来,使相关领导和业务人员能够直观、清晰地了解企业的数据质量情况,确保数据问题是与业务需求相关的,并能够得到相关领导或业务人员的重视与支持。
第一,数据质量评估以数据质量问题对业务的影响分析为指导,清楚的定义出待评估数据的范围和优先级等重要参数。
第二,采用自上而下和自下而上相结合的策略识别数据中的异常问题。自上而下是以业务目标为出发点,对待评估的数据集进行评估和衡量。自下而上的方法是基于基于数据概要分析,识别数据问题并将其映射到对业务目标的潜在影响。
第三,形成数据治理评估报告,通过该报告清楚列出数据质量的评估结果,该报告可以在利益相关者,决策者之间分发,从而推动数据质量改进行动。
从本质上讲,数据质量评估意味着对企业的数据环境进行全面普查,以便能够确定其环境中的数据质量问题,并识别数据质量问题对业务目标的影响程度。它为数据质量改进计划和衡量后续改进的结果,提供了一个重要的参考。
分析根本原因
产生数据质量问题的原因有很多,但是有些问题的发生仅是表象,并不一定是导致错误数据的根本原因。
要做好数据质量的管理,应抓住影响数据质量的关键因素,设置质量管理点或质量控制点,从数据的源头抓起,从根本上解决数据质量问题。
对于数据质量问题采用量化管理机制,分等级和优先级进行管理,严重的数据质量问题或数据质量事件可以升级为故障,并对故障进行定义、等级划分、预置处理方案和Review。
量化的数据质量使得我们可以通过统计过程控制对数据质量进行监测。一旦发现异常值或者数据质量的突然恶化,便根据数据产生的逻辑顺藤摸瓜找到产生数据的业务环节。所以在根因分析的过程中,要不断的去追踪数据进行问题定位,确定问题最早出现的根本原因进而使问题得到有效解决,达到治标又治本的效果。
我们在数据问题根因分析章节中已经详细描述了数据质量问题的根因分析步骤和方法,这里就不再加以重复描述了。
制定解决方案
事实上,没有一种“一刀切”的方法来保证企业每种业务的每种数据的准确性和完整性。
企业数据质量的治理需要结合数据问题对业务的影响程度以及数据问题发生的根本原因制定数据质量管理的解决方案。
明确数据质量的改进目标,制定数据质量问题处理策略,并立即付诸行动。
随着大数据的发展,企业用数需求与日俱增,直接解决数据质量问题变得比以往任何时候都更加重要。
技术的发展、业务的变化、数据的增加也让企业的数据环境变更日益复杂和多变。
因此,企业的数据质量管理是一个持续的过程,永远也不会出现所谓的“最佳时机”,换句话说,企业数据质量管理的最佳时机就是“JUST DO IT!”
控制数据质量
数据质量控制是在企业的数据环境中设置一道数据质量的“防火墙”,以预防不良数据的发生。
数据质量“防火墙”就是根据数据问题的根因分析和问题处理策略,在发生数据问题的入口点设置的数据问题测量和监控程序,在数据环境的源头或者上游进行数据问题的防治,从而避免不良数据向下游传播并污染后续的存储,进而影响业务。
数据质量的测量和控制需要将数据质量目标集成到系统开发的生命周期中,将数据质量控制纳入业务流程,彻底遍历每个应用程序中的数据流并深入了解数据检查和控制程序的可能插入点。
这些要求必须添加到系统的功能要求中,以便无缝地集成到开发周期中,从而在数据进入系统时进行验证,避免不良数据的发生。
数据质量“防火墙”能够自动检测到的数据问题并将其发送到原始数据源以进行纠正,或者在将其传递到企业环境之前进行纠正和调整,极大地减少了数据质量问题对后续业务的影响。
纠正数据问题
尽管有效数据质量控制可以在很大程度上起到控制和预防不良数据发生的作用,但事实上,再严格的质量控制也无法做到100%数据问题防治,甚至有时候严格的数据质量控制还会引出其他更多的数据问题。
因此,企业还需要不时进行主动的数据清理和处理补救,以纠正现有的数据问题。
纠正数据问题涉及数据的生产方、消费方,这一步骤需要企业数据环境中的前中后台共同开展数据纠错。
数据质量管理方案要与企业的特定的业务目标紧密匹配,使各方对数据质量管理目标和纠正方案达成共识,这对数据质量目标的最终达成至关重要。
组织体系保障
企业需要建立一种文化,以让更多的人认识到数据质量的重要性,这离不开组织体系的保障。建立数据质量管理的组织体系并为具有适当技能的人员分配角色以确保数据质量。在整个企业中实施数据质量管理时,应考虑以下角色:
数据治理委员会:为数据质量定下基调,制定有关数据基础架构和流程的决策。数据治理委员会确保在整个企业范围内采用与数据质量相关的类似方法和政策,并在组织的所有职能部门之间进行横向调整。数据治理委员会定期开会以定义新的数据质量目标,推动测量并分析各个业务部门内数据质量的状态。
数据分析师:数据分析师负责数据问题的根因分析,以便为数据质量解决方案的制定提供决策依据。
数据管理员:数据管理员负责将数据作为公司资产进行管理,操作数据质量,例如,定期数据清理,删除重复数据或解决其他一些数据问题。
质量考核体系
数据质量考核建立数据质量KPI,通过专项考核计分的方式对各企业各业务域、各部门的数据质量管理情况进行评估。
以数据质量的评估结果为依据,并将问题数据归结到相应的分类,并按所在分类的权值进行量化。总结发生数据质量问题的规律,利用数据质量管理工具定期对数据质量进行监控和测量,及时发现存在的数据质量问题,并督促落实改正。
考核实行奖惩结合制,每次根据各业务域、各部门数据质量KPI的检核情况,分别给予相应的奖罚分值,作为各业务域、各部门年终考核的内容,并将数据质量专项考核结果纳入对于人员、部门的整体绩效考核体系中。
通过评价相关数据质量KPI水平,督促各方在日常工作中重视数据质量,在发现问题时能够追根溯源地主动解决,对于高水平的数据质量工作成果进行激励、表彰,提升企业的数据质量管理意识。
先进技术赋能
数据质量管理的速度必须与数据生成的速度相匹配才能保证干净、完整、可靠、一致的数据。传统的数据质量方法很难实现这一结果,但先进的现代技术为数据质量管理提供了更好的解决方案。
我们可以利用机器学习技术来进行数据质量的监控,评分和改善数据质量,以应对不断增加的数据速度和日趋复杂的数据环境等挑战。
机器学习在数据质量管理中的应用包括:
更好的了解和量化数据质量
更好的进行数据质量问题分析
更好的数据匹配和删除重复数据
更好的丰富企业的数据
数据管理系统中的机器学习功能不断提高数据质量,以确保所有运营团队和面向客户的团队始终使用准确一致的数据。
在数据生命周期中关注数据质量
数据的生命周期从数据规划开始,中间是一个包括设计、创建、处理、部署、应用、监控、存档、销毁这几个阶段并不断循环的过程。企业的数据质量管理应贯穿数据生命周期的全过程。
图片
数据规划。从企业战略的角度不断完善企业数据模型的规划,把数据质量管理融入到企业战略中,建立数据治理体系,并融入企业文化中。
数据设计。推动数据标准化制定和贯彻执行,根据数据标准化要求统一建模管理,统一数据分类、数据编码、数据存储结构,为数据的集成、交换、共享、应用奠定基础。
数据创建。利用数据模型保证数据结构完整、一致,执行数据标准、规范数据维护过程,加入数据质量检查,从源头系统保证数据的正确性、完整性、唯一性。
数据使用。利用元数据监控数据使用;利用数据标准保证数据正确;利用数据质量检查加工正确。元数据提供各系统统一的数据模型进行使用,监控数据的来源去向,提供全息的数据地图支持;企业从技术、管理、业务三个方面进行规范,严格执行数据标准,保证数据的规范化输入,标准化。