一 传统的数据治理策略不再有效
随着现代数据堆栈的兴起,所有业务数据现在都集中到云数据湖和数据仓库中。这使得团队可以更轻松地连接和分析不同的数据集,无论是产品、营销、销售还是财务数据。但它也可能给组织中负责制定数据治理策略的人员带来挑战。
随着访问数据的需求扩展到工程团队之外,一些趋势开始占据主导地位。
1.去中心化的数据所有权
分散的数据所有权使每个部门都有权创建自己的数据集和报告,而不必依赖集中的 BI 团队。一些组织通过实施数据网格来实现这一目标,鼓励域所有者独立创建数据转换和分析。
在这种结构下,不同部门可以自由地利用公司的核心数据集(“数据集市”),以及从他们直接使用的工具中收集的数据。目前可用的业务和运营软件(例如 Salesforce、Google Ads 和 Zuora)通过 API 提供所有数据和活动日志。这使得在包含生产数据的数据仓库之间传输数据变得容易。
通常,该工具成为使用该工具的任何团体的事实来源,因为所有分析都在该工具中。但这意味着两个不同的业务部门,例如销售部门和财务部门最终可能会以不同的方式计算相同的指标来代表“每月活跃用户”,并得出不同的结论。
“为什么我的号码和你的不一样”?
不同的群体也很容易对同一数据集产生不同的理解。仪表板可能具有相同的名称,但由于数据转换方式不同,因此看起来会略有不同。
那么我们如何让每个人都达成共识呢?由于数据所有权分散,将数据转换控制到每个人都使用一个通用名称或定义是非常困难且成本高昂的。相反,目标应该是使领域上下文和差异更加明显,以便用户可以找到已创建和正在使用的相关定义。
为了有效地管理整个数据,重要的是提供所有数据用户都可以访问的不同团队如何转换和使用数据的可见性。
2. 数据民主化
作为数据民主化的副产品,许多用户包括非技术用户现在可以直接通过 BI 工具访问和运行数据分析。数据民主化使组织中的每个人都能访问相关数据并帮助他们了解如何使用这些数据。不同的业务部门通常会管理他们使用的数据,并可能尝试跟踪在其工具中创建的数据的语义。
传统的数据治理思维假设数据仓库只能由数据平台团队访问,并且构建在数据仓库之上的分析层由审批流程控制。这一瓶颈可能仍然存在,并且可能期望以能够跟踪数据的方式控制新数据集的创建。然而,将 BI 工具连接到数据仓库意味着人们将更容易访问一般数据。
通过 Tableau 等 BI 工具访问数据通常比直接访问数据库受到的限制更少。许多 BI 工具也有自己的访问控制层。当今的数据治理需要在消费层进行更多集成,以支持组织中的数据民主化。
3.新兴数据角色影响数据控制
随着“分析工程师”和“数据科学家”等新角色的创建,营销、运营和其他非工程团队可以做出数据驱动的决策,公司在这些部门内面临着更大的数据孤岛潜力。负责数据治理合规性的工程团队很难跟踪数据访问,因为具有这些新角色的人员可以根据需要创建自己的数据集、分析和报告。
这些人创建、访问和探索数据的速度可能会导致需要管理的数据量不受控制地增加。虽然每个人都同意数据在记录下来后更有用,但很少有人愿意自己负责创建所有这些文档。
公司通常尝试通过在团队之间分配记录和维护数据集的工作来解决数据治理问题,但这种解决方案是不可持续的。数据的创建速度太快,任何人都无法手动管理。
二 数据发现是数据治理的关键
那么,在数据量不可控且不断增长的环境下,我们如何实施数据治理呢?自动化数据目录可以在这里发挥重要作用。
去中心化的数据治理、数据民主化和新的嵌入式数据角色使领域专家能够自由探索数据并快速取得进展。这些趋势是人们认识到数据可以从工程以外的更多角度推动业务增长的自然反应。这些趋势的目的是在组织内实现数据发现,让任何人都可以更轻松地查看可用数据并了解如何使用这些数据。数据发现是必要的,这样我们就可以相应地规划数据治理。为了使每个人都可以发现数据,并允许数据以受控但有组织的方式增长,我们还必须考虑数据目录。
随着去中心化数据所有权、数据民主化和新的嵌入式数据角色的兴起,数据越来越受到关注,而且越来越失控。世界逐渐认识到数据可以改善业务的任何部分,但尽管技术已经进步以支持这一点,但流程却落后了。现在数据很容易制作,但很难找到和控制。
为了在现代数据堆栈中创建更好的数据治理,公司需要获得数据发现。通过创建组织中每个人都参与贡献的中央数据目录并在顶部构建自动化层,数据发现和数据治理成为可持续且可扩展的流程。
三 如何整合去中心化数据治理模型
数据目录是整合去中心化数据治理模型的关键。使用数据目录作为单一事实来源可以让不同的团队就公司 KPI 和指标定义达成一致。数据目录不仅可以确保一致性,而且当贡献者是主题专家时,它还可以提供准确数据的直接来源。采取以下步骤,创建和维护数据目录的过程可以使数据治理更加顺畅:
1 更好地了解数据消费方式
为了构建数据目录,需要了解当今组织中如何使用数据。这可以从每个数据资产、用户和团队的使用统计数据中得出。当知道正在访问哪些数据以及何时访问、正在使用或未使用哪些仪表板以及谁在积极参与现有数据以及如何参与时,可以确定以下内容:
哪些数据集需要首先分类或记录?
哪些数据管道或模型对于监控其质量最关键?
哪些数据集或仪表板可以存档?
了解数据表、列和仪表板的受欢迎程度可以更好地识别需要弃用、记录和组织的内容。当企业拥有大量数据时,可以通过查看最常使用或最少使用的数据来确定首先关注的优先级。
探索组织中不同人员如何使用数据的趋势可以更轻松地委派和分配所需的任何数据管理工作。此外,当语义上下文丢失或过时时,对数据操作有很好的理解可以消除大量噪音和无休止的数据管理手动工作。
2 构建高层框架以开始组织数据
为了在多个团队之间分配工作或记录和分类数据,定义一个每个人都可以遵循的框架非常重要。我们建议在该框架中包含三件事——标签、所有权和标准化文档。
A、标签
标签是为数据创建组织系统的简单方法。通过将标签应用到数据集,可以附加语义,从而更轻松、更频繁、更正确地使用数据集。
可以通过创建两种主要类型的标签,类别标签和状态标签来获得灵活性和覆盖范围。类别标签定义组织内的销售、营销、运营或产品线等业务单位。它们可以被视为单独的工作区,其中可以在工作区之间共享相同的数据集。
状态标签定义数据集或字段应如何分类。状态标签的示例包括To be deprecated、Certified、Sensitive、L0/L1/L2、Gold/Silver/Bronze或PII。标签名称应该足够清晰,以便任何人都可以理解应用标签意味着如何使用或访问数据。
我们建议通过减少标签来保持简单。从治理的角度来看,这也可以让事情变得更容易。通过类别标签与状态标签等简单的标签框架,无论用户属于哪个团队,他们都可以很容易地对数据集有一个高层次的理解。
B 数据所有权
通过为每个数据集分配所有者,可以分配记录和维护数据集的工作。数据所有权或管理权的概念似乎对数据团队来说是一项额外的责任,但鼓励数据的顶级用户参与标记和记录可以创建一个更具协作性的环境。
我们发现每个数据集都有业务和技术所有者是最有用的。企业主是典型的数据管理员,负责维护数据及其定义的正确性。他们通常是设计表格的技术产品经理或数据分析师。技术所有者负责维护数据管道和质量。一些公司也采用合法所有者来拥有数据所有权。
C 标准化文件
为数据字典或指标定义创建文档模板是确保数据得到良好维护的另一种方法。如果显示操作元数据,例如热门用户、热门查询或过去 30 天内数据集的使用次数,可以立即向任何想要了解该数据集及其使用方式的人提供大量信息。
拥有一个基于标签、所有权和标准化文档的简单、易于应用的框架可以让不同的团队更轻松地协作并确保数据得到适当的管理。
3 自动化数据治理工作流程
为了使数据治理策略具有可扩展性和可维护性,有必要找到自动化数据治理工作流程的方法。以下是自动化的一些目标领域:
A. 通知系统
通知系统可以帮助所有者和顶级用户即使用该表的其他分析师或工程师自动了解其数据是否需要关注,从而掌握数据集的问题或更改。通知还可以让某人知道他们何时被指定为所有者,以及他们负责记录数据集、确保其正确性或确保其正常运行。
B 跟踪元数据更改
创建一个可以自动识别元数据更改的系统,例如创建新数据集、添加原始数据集或数据描述或加载状态发生更改时。识别与团队或个人相关的数据集或显示可能包含 PII 的数据,尤其是带有明确且简单的内容,例如标签可以传达有关如何以简单有效的方式使用数据的信息。如果实施得当,这可以显着减轻数据治理和合规性的负担。
跟踪元数据更改,然后自动通知用户这些更改可以帮助您保持井井有条。例如,您可能希望在描述更改时通知表的所有者,以便他们批准这些更改。
C 批量更新
在构建数据目录或更新数据时,我们希望能够批量应用更改以节省时间。如果数据已经具有命名约定或共性,并且可以找到与项目或团队相关的大块,则可以轻松地将标签和所有者应用于该数据。轻松批量更新数据集的所有者不仅在首次建立所有权时有用,而且在项目状态更改或业务组重组时也有用。
四 采用联合、去中心化的数据消费模型
现代数据治理的核心困难之一是谁应该访问哪些数据。我们已经提到,一些公司通过向组织中的每个人授予对所有数据的访问权限来解决此问题,但这会带来严重的安全问题。如果数据访问过于受限而不允许用户工作,反之亦然也是一个问题。
可以根据共享知识和对目录的贡献来组织数据,从而形成更易于管理的数据模型。创建一个系统,让整个组织共同贡献描述、标签、所有权和其他元数据,并分担维护它的任务,使数据目录更容易实现。通过自动化部分流程,可以更好地让个人和团队同意在创建可扩展、可持续的数据模型中发挥一小部分作用。
允许所有用户搜索元数据意味着他们可以了解存在哪些数据以及如何使用这些数据,而无需访问元数据本身。用户可以更清楚地了解他们实际需要访问哪些数据,从而减少数据治理和数据驱动决策之间的紧张关系。如果组织通过构建有效的数据目录来采用联合、去中心化的数据访问模型,那么他们实际上可以在数据治理方面表现更加有效。