对于建立可靠的数据分析不能忽视主数据的重要性!
“给我一个足够长的杠杆和一个支点,我就能撬动整个世界”这是阿基米德的名言。如果我们想把它转化为现代数据科学世界,它应该是“给我一个强大的主数据,我就能构建所有可能的分析”。
在接触数据科学时,许多人专注于数据分析、数据可视化和数据收集,而忘记了整个数据科学的一个基本组成部分:主数据。
您可以获得公司的所有数据,但是如果主数据质量不高,成功的可能性就很低。
您最终可能会得到错误的结果,甚至更糟的是,使用不可靠的数据。
这就是为什么我强烈建议在开展分析数据项目时,始终在其中包含强大的主数据。
在本文中,我将解释确保主数据可靠所需的关键构建块。通过这样做,您的分析将变得有价值。
以下是需要讨论的五个主题:
数据范围:第一步是定义哪些数据对于运行数据策略至关重要。您关注的是会计科目表、成本中心或利润中心层次结构,还是产品和物料主数据?
数据所有权:一旦范围明确,就必须明确谁拥有这些数据。这是至关重要的,因为所有者应该定义使用数据所需的质量水平。他还必须知道数据测量的内容以及如何使其更可靠。我的建议是将所有权尽可能地放在使用数据的人身边。这将确保他们了解他们在谈论什么,以及他们关心它的事实。尽量避免将所有权放在一些常见的职能部门(即IT)中,因为这可能导致缺乏所有权、缺乏知识,或对主题的关注度低;
数据模型:对所拥有的数据有充分的了解和控制是了解数据从何而来、如何转换和使用的关键。这就是数据模型的作用。在复杂的ERP或系统环境中,要绘制强大的数据模型,需要一些数据架构师。但您可以选择只为某些数据建立一个详细的数据模型,这些数据可能会被转换多次,以便了解谁接触它们以及如何使它们可靠;
数据质量KPI:如果数据质量很差,那么分析也会很差。您可能需要定义要达到的质量水平,但要知道,您想要的质量越高,您需要付出的成本就越高。对于某些数据,90%的质量水平对于您使用这些数据而言是可以接受的。我的建议是尽可能自动化数据质量计算,以消除其中的情绪和偏见。我们开发的一种方法是每周从关键标准ERP表中获取信息并将其与某些标准进行比较。这创建了一组自动化且可靠的KPI,人们可以跟进以实现定义的目标;
设置数据组织:需要任命具有强烈所有权和责任感的数据管理员。他们必须获得授权和培训,以充分了解他们所做工作的好处。解释他们的数据是如何使用的(即掌握数据模型)将使他们能够专注于对分析重要的事情;
联接分析和主数据:即使许多人认为分析是数据科学很酷的一部分,但两者是无法分开的。考虑让两个团队一起工作,以便对数据采取整体方法,了解它们在何处、如何产生以及它们将在哪里使用。左手必须知道右手会做什么。否则,风险在于重点放在不同的事情上。一个强大的数据科学团队必须嵌入强大的主数据人员才能取得成功:他们是识别数据之间关系的人,解释在哪里可以找到正确的数据以及如何连接它们。
即使是最好的数据科学团队也需要主数据才能取得成功。
数据科学的关键是读取可靠的数据并实现自动化、降低复杂性和预测未来。让数据分析团队与主数据团队一起工作,拥有同样的尊严,将赋予整个组织权力。我有时会说“我们坐在数据的金山上。让我们利用它!”。绘制一个强大的仪表板当然是一项伟大的工作,但如果您使用正确的数据,最终结果会更好!
“数据!数据数据!没有粘土,我就造不出砖!”