我经常与那些准备投入大量时间和资源用于注定失败的数据质量计划的组织进行交谈。激励措施和关键绩效指标能够推动良好行为,这并不是什么秘密。销售薪酬计划受到严格审查,因此经常成为董事会会议的议题。如果我们对数据质量记分卡给予同样的关注,结果会怎样?
即使在Hadoop时代的传统数据质量记分卡的鼎盛时期,也很少取得巨大成功。在过去的几年里,云计算和元数据管理方面的进步使得组织大量数据成为可能。
数据工程流程开始趋向于更长期存在的工程学科的成熟度和严谨程度。当然,人工智能有潜力简化一切。尽管这个问题还没有——也可能永远不会——完全解决,但我已经看到一些组织采用了最佳实践,而这正是计划成功与 12 个月后再举行一次启动会议之间的区别。
以下是构建数据质量记分卡的4个关键经验:
了解哪些数据重要
测量机制
采取正确的“激励”政策
自动评估和发现
一、了解哪些数据重要
任何与数据相关的计划最容易失败的就是假设所有数据都具有同等价值。而确定哪些数据重要的唯一最佳方法就是与企业进行交流。
下面是一个很好的场景:
“我想问的是:
您如何使用这张表?
您什么时候查看这些数据?您什么时候报告这些数据?这些数据需要更新到分钟、每小时还是每天?
这有何用处?
如果这些数据延迟,谁需要得到通知?”
现在,如果您为一个拥有遍布全球的数万名员工的庞大组织工作,这可能说起来容易做起来难。
在这些情况下,我的建议是从对业务最关键的数据业务部门开始(如果您不知道,我帮不了您!)。开始讨论需求和优先事项。
只需记住:先证明概念,再进行扩展。你会惊讶地发现有多少人恰恰相反。
二 、测量机制
数据质量难以标准化
简而言之,这类努力面临的持久挑战之一是。质量是,也应该,从用例的角度来衡量。
数据质量的六个维度是任何数据质量记分卡的重要组成部分和重要的起点,但对于许多团队来说,这只是一个开始——而且每个数据产品都是不同的。
例如,财务报告可能需要高度准确,并具有一定的时效性,而机器学习模型可能恰恰相反。
衡量数据质量通常已完全联合起来
从实施角度来看,这意味着。不同的分析师或管理员会根据不同的数据质量规则和权重,逐个衡量数据质量。
这在一定程度上是有道理的,但在翻译过程中却丢失了很多内容。
数据消费者通常很难理解“黄色”分数的含义
数据具有多种用途,并可跨用例共享。不仅一个人的“黄色”质量分数是另一个人的“绿色”,而且或评分方式。他们还经常忽略绿色表格从红色表格输入数据的含义(你知道,垃圾进,垃圾出……)。
当然,公布违反规则的数量很重要,但你还需要:
尽可能将其置于情境中,
拥有聚合的端到端数据产品视图,
构建一些强大的无代码数据分析,并且
意识到这还不够。
你需要测量工具。
那么你还需要什么?
换句话说,数据生产和交付的组成部分通常可以带来高质量。这更容易标准化。跨业务部门和团队也更容易理解。
他们衡量数据的准确性——但可靠性、管理和可用性实际上占总分的 60%。
Airbnb Midas是最著名的内部数据质量评分和认证项目之一,这是理所当然的。他们非常依赖这个概念。
许多数据团队仍在制定自己的标准,但我们发现与数据健康高度相关的组成部分包括:
前面提到的数据质量的六个维度(有效性、完整性、一致性、及时性、唯一性、准确性)。
可用性和管理
文档:数据资产、其用途和过去事件的某种程度的语义含义。一家在线旅游搜索公司根据资产的编目方式和位置以及其 6 个类别中的两个类别的元数据的完整性对资产进行评分。
谱系:能够跨系统在现场级别追踪数据来源。
使用率:表收到的查询数量以及具有下游依赖关系的数据产品数量。这可以成为“关键资产得分”,并且具有飞轮效应。您将可靠性工作重点放在最常用的内容上,人们信任流行的内容。
系统可靠性
监控:一般来说,如果数据产品不仅在最后一英里表上具有强大的覆盖范围,而且在整个上游都有强大的覆盖范围,则表明它是一项精心策划的资产。
新鲜度:数据新鲜度要求因数据产品类型而异,但它是一种表级指标,可以识别和显示与常态的偏差。许多组织(如罗氏诊断公司)都会为其数据产品制定特定的新鲜度SLA,并衡量遵守程度。
数量:表接收的行数相对稳定通常是管道和数据传输系统运行良好的标志。
架构:您至少希望消费者能够看到架构变化。对于最关键的管道,理想情况下,您需要某种程度的架构实施或数据契约,以便您知道源头的更改何时会破坏下游资产。
行动响应:
所有权:资产是否有所有者?如果资产同时拥有技术所有者和业务所有者,则可获得额外奖励。
通知渠道和通信:数据传递是一个复杂的过程,涉及从采集到聚合再到消费的多个交接。除此之外,理想情况下,您最好让多个团队使用一个数据资产(否则您的网格更像是一个孤岛)。在这种环境中,拥有可靠数据产品的唯一方法是拥有一个中央通信渠道来突出显示和讨论变化和事件。
平均修复时间:可以说,衡量数据集可信度的最重要指标是支持团队响应和修复事件的速度。不良数据是不可避免的。出色的事件响应是有意为之。
三 、采取正确的政策
为生产者和消费者提供高质量数据激励。请记住,衡量数据健康状况的目的不是为了衡量数据健康状况。关键在于“推动人们倾向于生成和使用高质量数据”。
我在这里看到的最佳实践是,对平台上的数据有一套最低要求,对每个级别有一套更为严格的认证要求。
认证起到了诱饵的作用,因为生产者确实希望消费者使用他们的数据,而消费者很快就会辨别并培养对高度可靠数据的品味。
四、 自动评估和发现
如果没有一定程度的自动化和自助服务能力,数据管理几乎不可能成功。需要放弃任何 1) 无法立即理解和 2) 无法自动衡量的评分标准。
您的组织也必须这样做。即使这是有史以来最好的评分标准,如果您没有一套可以自动收集和显示它的解决方案,它就必须被扔进垃圾箱。
我见过最常见的方法是使用数据可观察性和质量解决方案以及数据目录。例如,罗氏公司就是这样做的,并将访问管理作为创建、展示和管理可信数据产品的一部分。
当然,这也可以通过手动将来自多个数据系统的元数据拼接到自主开发的可发现性门户中来实现,但请注意维护开销。
衡量即管理
数据团队已对其现代数据和 AI 平台进行了巨额投资。但为了最大限度地发挥投资价值,组织(包括数据生产者和消费者)必须完全接受并信任所提供的数据。
归根结底,衡量结果是为了管理。这难道不是最重要的吗?