跳到内容

什么是数据沿袭?为什么跟踪数据流很重要

2021年9月28日

数据沿袭

一些专业人士将数据沿袭视为数据的GPS。

这是因为数据沿袭可以帮助用户直观地了解数据的路径和转换。它记录了如何处理、转换和传输数据,以构成企业用于运行其操作的有意义的信息。

数据沿袭帮助企业获得数据如何从源流到目的地的细粒度视图。许多组织使用数据虚拟化软件使用数据沿袭来帮助他们跟踪自己的数据,同时向用户提供实时信息。

数据沿袭告诉工程师数据经过的转换及其原因。它帮助组织跟踪错误、执行系统迁移、使数据发现和元数据更紧密地结合在一起,并以更低的风险实现流程更改。

数据沿袭表示

战略业务决策依赖于数据的准确性。如果没有良好的数据沿袭,就很难跟踪和验证数据处理。数据沿袭使用户能够可视化从源到目的地的完整信息流,从而更容易检测和修复异常。使用数据沿袭,用户可以重放数据流的特定部分或输入,以调试或生成丢失的输出。

在用户不需要关于技术沿路的详细信息的情况下,他们使用数据来源来获得数据流的高级概述。许多数据库系统利用数据来源来解决调试和验证的挑战。

什么是数据来源?

数据来源是数据来自何处以及生成数据的方法的文档。

尽管数据来源和数据沿系有相似之处,但对于需要高层次概述数据来源的业务用户来说,数据来源更有用。相反,数据沿袭包括业务级和技术级的沿袭,并提供数据流的细粒度视图。

数据沿袭和数据治理

数据治理是组织用来维护和控制数据的一组规则和过程。数据沿袭是数据治理的重要组成部分,因为它告知数据如何从源流向目标。

企业根据自己的需求使用不同的数据层次。较低级别的数据沿袭提供了数据在组织中如何流动的简单可视化表示,而不包括关于数据在管道中移动时发生的转换的具体细节。最高的一层是属性级数据沿袭,它提供了如何优化数据流和改进数据平台的方法。

组织根据其治理结构、实现和监视中产生的成本、监管问题以及它对业务的影响来选择数据沿袭层。

理解数据沿袭是元数据管理的一个关键方面,因此它对数据仓库以及数据湖管理员。元数据管理允许您查看流经各种系统的数据流,从而更容易找到与特定报告或提取、转换、加载(ETL)过程相关联的所有数据。

收集数据沿程——描述数据的来源、结构和依赖关系——可以自动提高所提供的元数据的质量,并减少手工工作。

约瑟夫Viehhauser
月台领先宝马

为什么数据沿袭很重要?

数据沿袭不仅帮助您修复问题或执行系统迁移,它还使您能够通过跟踪更改、如何执行更改以及谁进行更改来确保数据的机密性和完整性。

通过数据沿袭,IT团队可以可视化数据从开始到结束的端到端旅程。它简化了It专业人员的工作,并为业务用户提供了做出有效决策的信心。

数据沿袭工具帮助您回答以下问题:

  • 数据是如何改变的?通过哪个过程?
  • 谁负责数据修改?
  • 什么时候改变的?
  • 做改动的人的地理位置是什么?
  • 为什么要做这个改变,它背后的背景是什么?

数据沿袭系统的需求主要由个人的角色和组织的目标决定。然而,数据沿袭可以在以下领域产生重大影响:

  • 战略决策:数据沿袭允许业务用户通过查看数据如何经过转换来更好地理解已处理的数据。这些数据对企业运营和改进产品和服务至关重要。
  • 新旧数据集的最佳使用:数据沿袭允许企业跟踪不同的数据集,因为这些数据集由于收集技术和技术的发展而变化。
  • 数据迁移:通过了解数据源的位置和生命周期,数据沿袭可以帮助IT团队将数据快速移动到新的存储位置,从而降低迁移项目的风险。
  • 数据治理:由于数据沿袭在数据生命周期中提供了细粒度的可见性,它有助于企业管理风险、遵守行业法规和执行审计。

专业人士将数据沿袭视为dataGovOps实践,其中沿袭、测试和沙箱属于数据治理实践。

“数据沿袭是“了解”客户数据场景和理解已实现的数据转换的最重要技术之一。”

沃尔夫冈•摩根
数据顾问Cubido Business Solutions GMBH

沃尔夫冈•摩根进一步补充道:“了解组织中数据岛和系统之间的依赖关系是至关重要的。这不仅从技术角度来看是必需的;对数据在系统之间的流动了解得越多,就可以更好地作出反应,查看信息的来源,以及在到达目标系统的过程中应用的转换。在我们的一些项目中,我们已经能够找到甚至客户都没有意识到的系统依赖关系。”

数据沿袭可以通过多种方式帮助不同工作角色的个人。例如,ETL开发人员可以在ETL作业中找到bug,并检查数据字段中的任何修改,如列的删除、添加或重命名。数据管理员可以使用沿系来标识ETL作业中最没用和最有用的数据资产。对于业务用户来说,它有助于检查报告的准确性,并识别生成错误报告时所涉及的流程和作业。

数据沿袭在机器学习,用于根据新的或修改过的数据对模型进行再培训。它还有助于减少漂移模型。模型的漂移是指由于数据的变化以及输入和输出变量之间的关系而导致的模型性能的下降。

粗粒度与细粒度的数据沿袭

学术学者有时会以不同的方式使用粗粒度和细粒度的数据沿袭,但这个概念基本上涵盖了用户可以获得的数据沿袭级别。

粗粒度世系与细粒度世系

粗粒度的数据沿袭描述数据管道、数据库、表以及它们如何相互连接。通常,沿袭收集系统在运行时积累粗粒度沿袭。它们捕获数据管道、数据库和表之间的互连性,而不涉及用于修改数据的转换的细节。这有助于降低捕获开销(关于数据流的详细信息)。在用户为了调试目的而想要进行取证分析的情况下,他们必须重放数据流,以收集细粒度的数据沿袭。

另一方面,细粒度的数据沿袭介绍创建或修改数据的详细应用转换。活动沿袭收集系统在运行时捕获粗粒度或细粒度的数据沿袭。它支持出色的重放和调试。但是,由于细粒度沿袭数据量很大,捕获开销很高。

数据沿袭用例

数据沿袭可以帮助组织在整个生命周期中跟踪数据流,查看依赖关系,并理解转换。团队利用数据流的细粒度视图,并将其用于许多目的。

识别错误的根本原因

当销售数字与财务部门的记录不匹配时,就会出现混乱,而且很难准确指出实际存在错误的地方。数据沿袭为此类实例提供了合理的解释。业务智能(BI)管理人员可以使用数据沿袭来跟踪完整的数据流,并查看在处理过程中所做的任何修改。

不管是否存在错误,BI经理都可以放心地为这种情况提供合理的解释。如果出现了错误,团队可以从源头对其进行纠正,从而使不同团队之间的最终用户数据保持一致。

系统升级

在升级或迁移到新系统时,必须了解哪些数据集是相关的,哪些数据集已经过时或不存在。数据沿袭可以帮助您了解用于执行业务操作的实际数据,并限制存储和管理无关数据的开销。

使用数据沿袭,您可以无缝地计划和执行系统迁移和更新。它帮助您可视化数据源、依赖项和流程,使您能够准确地知道需要迁移什么。

影响分析

在实现更改之前,任何好的业务都能识别报告、数据元素和受影响的最终用户。数据沿袭软件帮助团队可视化下游数据对象并度量变更的影响。

数据沿袭允许您了解业务用户如何与数据交互,以及更改将如何影响他们。它帮助企业理解特定修改的影响,并允许他们决定是否应该遵循。

数据沿袭技术

组织可以使用一些标准技术对战略数据集执行数据沿袭。这些技术确保跟踪每个数据转换或处理,使您能够在信息资产经历流程时的每个阶段映射数据元素。

数据沿袭技术在每次数据转换后收集和存储元数据,这些元数据稍后用于数据沿袭表示。

家族通过解析

家族通过解析读取用于处理数据的逻辑的最高级沿袭形式之一。通过反向工程数据转换逻辑,您可以获得全面的端到端跟踪。

通过解析技术的沿袭部署起来相对复杂,因为它需要理解用于转换和处理数据的所有工具和编程语言。这可以包括ETL逻辑、基于结构化查询语言(SQL)的解决方案、JAVA解决方案、可扩展标记语言(XML)解决方案、遗留数据格式等等。

创建支持十几种编程语言的数据沿袭解决方案是很棘手的,而支持动态处理的各种工具增加了它的复杂性。在选择数据沿袭解决方案时,确保它考虑到输入参数、运行时信息和默认值,并解析所有这些元素以自动化端到端数据沿袭交付。

基于模式的血统

基于模式的血统使用模式提供沿袭表示,而不是读取任何代码。基于模式的沿袭利用有关表、报告和列的元数据,并对它们进行概要分析,以基于常见的相似性和模式创建沿袭。

在这种技术中,您无疑具有监视数据而不是算法的优势。您的数据沿袭解决方案不必理解用于处理数据的编程语言和工具。它可以在Oracle或MySQL等任何数据库技术中以相同的方式使用。但与此同时,这项技术并不总是能显示准确的结果。许多细节,如转换逻辑,是不可用的。

当由于代码不可访问或不可用而无法理解编程逻辑时,此方法适合于数据沿袭用例。

独立的血统

独立的血统在提供数据处理逻辑、主数据管理等功能的全包环境中跟踪每个数据移动和转换。跟踪数据流及其生命周期变得很容易。

尽管如此,独立的解决方案仍然只适用于一个特定的环境,而对它之外的一切视而不见。由于出现了新的需求,并且使用了新的工具来处理数据,自包含的数据沿袭解决方案可能无法交付预期的结果。

数据标记沿袭

数据标记沿袭,每个移动或转换的数据片段都会由转换引擎进行标记。然后从开始到结束读取所有标记,以生成沿袭表示。尽管它看起来是一种有效的数据沿袭技术,但它只有在有一致的转换引擎或工具来控制数据移动时才能工作。

这种技术排除了转换引擎之外的数据移动,使得它适合在封闭的数据系统上执行数据沿袭。在某些情况下,这可能不是首选的数据沿袭技术。例如,开发人员避免在数据移动的每个接触点向解决方案模型添加正式的数据列。

区块链是一个通过数据标记来解决沿袭复杂性的潜在解决方案,但是它还没有得到足够广泛的采用,不足以对组织中的数据生命周期造成重大影响。

手动血统

手动血统包括与人们交谈以理解组织中的数据流并记录它。您可以采访应用程序所有者、数据集成专家、数据管理员以及其他与数据生命周期相关的人员。接下来,您可以使用电子表格和简单的映射技术定义沿袭。

有时,您可能会发现矛盾的信息或错过采访某人,导致不恰当的数据沿袭。在遍历代码时,您还必须手动检查表、比较列等等,这是一个耗时且乏味的过程。动态增长的代码量及其复杂性增加了手工数据沿袭的复杂性。

尽管存在这些挑战,但事实证明,这种方法对于理解环境中发生的事情是有益的。当代码不可用或不可访问时,手工数据沿袭也证明是有效的。

如何实现数据沿袭

实现数据沿袭在很大程度上取决于组织的数据文化。确保您有一个已建立的数据管理框架,并与数据管理专业人员和其他利益相关者建立强有力的协作关系,以成功实现数据沿袭。

按照这七个步骤在您的组织中成功地实现数据沿袭。

  1. 确定主要业务驱动因素:讨论实现数据沿袭的原因,并找出它们对满足业务目标是否至关重要。这些原因可能包括业务更改、数据质量计划、听觉需求或立法需求。
  2. 项目的船上高级管理人员:实现数据沿袭需要很多资源(人力和财力)和时间。确保你有高级管理人员的支持,以推动实施项目的完成。您可以通过解释数据沿袭的好处以及它如何有助于遵守行业规则来说服管理层。
  3. 范围的倡议:一旦高级管理层批准了项目,就根据确定的业务驱动因素和关键数据元素(CDE)来决定其范围。关键数据元素对组织的绩效和客户体验有最显著的影响。
  4. 定义范围:数据沿袭范围从数据源开始,结束于最终使用点。大型组织可以修复有限长度的数据沿袭,因为它们有许多子公司,以避免复杂化。
  5. 准备业务需求:涉众可能对数据沿袭有不同的期望。首先,业务涉众和技术涉众有着不同的利益。业务涉众对价值、概念数据模型级别上的数据沿袭和根本原因分析更感兴趣。相反,技术涉众在物理层上对影响分析、元数据设计沿袭和数据沿袭感兴趣。
  6. 修正了一个记录数据沿袭的方法:您可以使用描述性或自动化的数据沿袭文档。评估哪种方式更适合您的组织,考虑它将消耗的时间和资源。
  7. 选择一个合适的数据沿袭软件:选择最适合您的目标和期望的数据沿袭软件解决方案。你可以探索主数据管理软件它提供了自动沿袭功能。

数据沿袭最佳实践

天堂帮助您获得可靠和准确的数据,以支持您公司的决策过程。计划和实现是数据治理的关键元素——您需要确定数据来自哪里,它将把您带到哪里。

在组织中规划和实现数据沿袭时,有一些实践可以考虑:

  • 自动化数据沿袭提取:数据及其沿袭是一个动态实体。您需要超越手工捕获电子表格中的数据沿袭,并将过程自动化,以便在敏捷环境中竞争。
  • 包括元数据来源:数据库管理系统、大数据工具、ETL软件和其他定制应用程序会根据它们处理的数据创建自己的数据。将此元数据包含在您的沿袭中,因为它有助于理解数据流和修改。
  • 验证元数据来源:鼓励应用程序和工具的所有者验证各自的元数据源,因为他们清楚地理解元数据的准确性和相关性。
  • 计划逐步提取:按照数据流经系统的相同顺序提取元数据和沿袭。它简化了系统之间和数据内部的映射连接、关系和依赖关系。
  • 验证端到端数据沿袭:通过从系统之间的高级连接开始,然后在验证转换文档之前深入研究连接的数据集和数据元素,逐步验证沿袭。
  • 实现数据目录软件:领养一个智能和自动化的数据目录软件收集所有来源的沿袭数据。这个软件还允许您从元数据中提取和推断谱系。

在细粒度级别跟踪数据流

数据沿程允许组织在整个生命周期中获得数据流的细粒度可见性,并帮助他们识别错误的根本原因、管理数据治理、进行影响分析,以及做出数据驱动的业务决策。

记录数据沿袭可能很棘手,但这对组织有效地理解和使用其数据是有益的。

了解更多关于如何获取实时数据以进行战略业务决策的信息数据虚拟化

数据虚拟化软件
从单个平台访问分布式数据

使用数据虚拟化软件可以无缝访问存储在多个数据库中的数据。

数据虚拟化软件
从单个平台访问分布式数据

使用数据虚拟化软件可以无缝访问存储在多个数据库中的数据。

不要错过任何一个邮件。

订阅吧,让你的手指随时掌握科技脉搏。

提交此表格即表示您同意接收G2的营销沟通。